Site | David Silver original: Discours algorithmes nouvelle version de AlphaGo secr�tes et les d�tails de la formation

Article co-r�dacteur en chef de trois rivi�res, Zong, Xiao-Fan.

Lei Feng r�seau par AI Technology Review: Go sommet Wuzhen le lendemain, sur les � rapports de recherche AlphaGo, AlphaGo ce que cela signifie, � discours, Demis Hassabis + David Silver pour Ke Jie f�roce hier bataille avec le d�veloppement de AlphaGo a fait une pr�sentation publique, dans laquelle le principal AlphaGo du programme la recherche des membres cl�s de David Silver a parl� AlphaGo et le d�veloppement dans la pr�sentation de la parole, Lei Feng r�seau, Amnesty International Technology tri�s selon le site ci-dessous les mots d'origine.

Discours R�sum�: Avec une forte strat�gie de r�seau et r�seau de valeur, AlphaGo explorer arbre de recherche de base de la taille des mouvements serait grandement r�duite. La version pr�c�dente AlphaGo Lee a �t� le � consid�rer que l'homme peut prendre la position de � moins et le nombre de tours de � l'anticipation Round 50 � pour limiter la taille de la recherche, et maintenant AlphaGo Master est d�j� consid�r� comme la position la plus globale de valeur, et aussi de pr�voir vous pouvez obtenir une plus grande pr�cision. En cons�quence, plus �troit arbre Monte Carlo et plus faible profondeur, sous-endroit pour faire le tour de consid�rer moins, pr�dire le nombre de tours moins, l'anticipation repose sur des r�seaux plus puissants, seulement quatre TPU, est l'un des AlphaGo Lee puissance de calcul pour atteindre une plus grande r�sistance de jeu.

AlphaGo Ma�tre de mat�riel, des algorithmes et des d�tails de la formation

Commencez avec le monde ext�rieur a parl� de pr�occupations mat�rielles AlphaGo, en particulier, AlphaGo Lee a utilis� 50 ou si TPU sur le nuage Google. Fiez-vous � une telle puissance de calcul, nous pouvons faire une couche de recherche profonde 50, c'est-�-dire avant Lazi pour toutes les positions sur la carte peut faire 50 �tapes � pr�voir. Il peut rechercher par 10.000 (dix mille, 1 million) positions. Cela semble beaucoup, mais en fait, il y a 20 ans, bleu fonc� par seconde peut chercher 100.000.000 (cent millions, 1 million) positions. Alors, quand en fait AlphaGo penser plus intelligent que Deep Blue, sa strat�gie de r�seau et la valeur du r�seau, ce qui r�duit consid�rablement le nombre de chemins � rechercher.

AlphaGo parler de la nouvelle version, nous l'appelons AlphaGo Ma�tre. C'est la plus forte AlphaGo, il est �galement la conf�rence dans le jeu AlphaGo. algorithme AlphaGo ma�tre utilis� dans beaucoup plus efficace, de sorte que seul un dixi�me de la quantit� de calcul n�cessaire Version AlphaGo Lee. Et la formation AlphaGo Ma�tre a aussi beaucoup plus efficace.

AlphaGo Fonctionnement ma�tre (apr�s l'entrevue, AI Technology Review, y compris les m�dias avec l'argent confirmer personnellement, sont en cours d'ex�cution sur un seul ordinateur, mais contient quatre TPU) sur une seule (seule machine) ordinateur, mais a plus de AlphaGo Lee, AlphaGo Fan TPU doit �tre puissant.

Pourquoi AlphaGo Ma�tre est si puissant qu'il? La raison derri�re cela est parce que nous utilisons les meilleures donn�es pour le former . Nous pouvons obtenir les meilleures donn�es pas de l'homme, mais de leur propre AlphaGo . Nous allons AlphaGo faire leur propre professeur. Nous utilisons les capacit�s AlphaGo de recherche puissant, g�n�rer leurs propres donn�es avec les donn�es g�n�r�es par la prochaine g�n�ration de l'apprentissage AlphaGo. Vous vous enseigner.

De cette fa�on, nous formons le r�seau de valeur et de la strat�gie de r�seau sera pire que la pr�c�dente AlphaGo. Permettez-moi d'expliquer soigneusement les d�tails de l'algorithme.

Tout d'abord, nous laissons les �checs AlphaGo avec lui-m�me. Ceci est bas� sur l'apprentissage par renforcement, nous ne prenons plus jeu d'�checs humain pour apprendre. AlphaGo propres eux-m�mes la formation, leur apprentissage de son corps. En renfor�ant les formes d'apprentissage, d'apprendre comment l'am�liorer.

A chaque tour du jeu d'�checs, course AlphaGo a frapp� le premier coup (pleine puissance) pour g�n�rer une recherche de recommandation Lazi que plan. Quand il a choisi cette �tape Lazes, mettre en uvre et � un nouveau cycle, se d�roulera � nouveau la recherche, la strat�gie de r�seau toujours bas� et r�seau de valeur, ont frapp� le premier coup de la recherche, pour g�n�rer le prochain plan Lazes, et ainsi de suite, jusqu'� ce qu'un jeu d'�checs a pris fin. Il r�p�tera ce processus plusieurs fois pour g�n�rer des donn�es de formation massives. Nous utilisons ensuite ces donn�es pour former le nouveau r�seau de neurones.

Tout d'abord, quand AlphaGo et ses propres �checs de jeu avec ces donn�es de formation pour former une nouvelle strat�gie de r�seau. Avant le fait, AlphaGo recherche d'ex�cution, s�lectionnez un programme Laz, qui sont les plus �lev�es de qualit� des donn�es que nous avons obtenus.

Ensuite, laissez le r�seau politique en utilisant uniquement son propre, sans aucune recherche, pour voir si elle peut produire le m�me programme d'ouvertures de �largi. L'id�e est ici: sans parler de sa propre strat�gie de r�seau, en essayant de travailler et a frapp� le premier coup des r�sultats de recherche comme tout un programme AlphaGo Lazi. En cons�quence, un tel r�seau de strat�gie que la version pr�c�dente du AlphaGo bien pire.

Nous appr�cions �galement le r�seau de formation d'une mani�re similaire. Il utilise la meilleure strat�gie pour former les donn�es, et ces donn�es sont pour lui-m�me et son AlphaGo d'�checs lorsque le vainqueur de la version compl�te des donn�es. Comme vous pouvez l'imaginer, AlphaGo lui-m�me et son jeu vers le bas beaucoup. L'un des plus gagnant du jeu d'�checs repr�sentatif est s�lectionn� � partir des donn�es extraites. Par cons�quent, ces donn�es sont tr�s �lev�s gagnants de qualit� jeu d'�checs au d�but de l'�valuation des tours.

nous voulons conna�tre la situation dans le 10e tour, comment faire, par exemple, dans un jeu d'�checs,? Nous r�-ex�cuter � nouveau � partir de z�ro ce jeu d'�checs, et a finalement trouv� gagn� noir, o� vous pouvez faire une estimation raisonnable: Noir a domin� le 10e tour.

Vous avez donc besoin de donn�es de formation de haute qualit� pour former le r�seau de valeur. Ensuite, la valeur du r�seau pour pr�dire ces AlphaGo lui-m�me et son jeu d'�checs d'�checs, de quel c�t� est le gagnant. Ces donn�es, chaque tour du jeu d'�checs, nous avons laiss� la valeur du r�seau pour pr�dire le vainqueur final.

Enfin, nous r�it�rons le processus de fois, enfin obtenir la nouvelle strat�gie et la valeur du r�seau. Par rapport � l'ancienne version, ils sont beaucoup plus forts. Ensuite, mettre la nouvelle version de la politique, la valeur de l'int�gration du r�seau � l'int�rieur AlphaGo, obtenir la nouvelle version, plus puissante que la pr�c�dente AlphaGo. Cela conduit � une meilleure prise de d�cision dans l'arborescence de recherche, les r�sultats de meilleure qualit� et des donn�es, le recyclage obtenir une nouvelle strat�gie plus puissante, la valeur du r�seau, ce qui AlphaGo plus puissant encore, et a donc augment�.

Enfin, comment la performance AlphaGo? Allez au point de vue de la note, avant ZEN, le logiciel CrazyStone jusqu'� environ 2000 points, Fan Hui �dition AlphaGo pr�s de 3000 points, en hausse de 3 sous LiShiShi la version AlphaGo port�e 3500 points ou plus, AlphaGo Ma�tre a augment� trois sous-port�e de 4500 points ou plus .

Apr�s le discours d'ouverture, Demis Hassabis + David Silver a accept� Lei Feng r�seau AI Technology Review, y compris un certain nombre d'entrevues dans les m�dias, quelques-uns des endroits que nous sommes plus int�ress�s, �tre accompagn�s ici:

1. La nouvelle version de AlphaGo ne ont pas besoin d'apprendre de tuteur humain?

Oui, il ne d�pend pas du monde ext�rieur a �t� un mentor, et maintenant nous voulons � la direction g�n�rale de l'IAG du d�veloppement de l'intelligence artificielle.

2. R�alisations Actuellement DeepMind effectu�es sur le Go a demand� d'�tendre l'autre sens? DeepMind d'�tendre � nouveau dans l'autre sens sur ce r�sultat?

Sur l'application sp�cifique, encore aux premiers stades de nos applications d'exploration, y compris des applications telles que le d�veloppement de nouveaux m�dicaments viennent d'�tre mentionn�s dans son discours qu'il est seulement celui du milieu de la technologie.

3. parler juste, vous avez mentionn� AlphaGo commence d�j� � avoir au cours d'�checs une � intuition �, comme l'homme, si l'on peut dire qu'il se dirige vers une forte sc�ne AI? Des moyens ayant la conscience de soi?

Je pense qu'il faut le dire, continuer � renforcer la formation dans un domaine sp�cifique, il ne peut r�aliser cette intuition ou sentiment d'appartenance dans ce domaine est d�termin�, et un r�sultat direct de la conscience de soi humaine sont diff�rents. De ce fait, la possibilit� de l'utiliser non seulement dans le domaine Go, mais inclut d'autres domaines.

4. Il est calcul� par le montant que vous avez mentionn� hier, l'ann�e derni�re, ce qui �quivaut � un dixi�me du calcul du montant de la guerre homme-machine, il ne peut pas dire encore plus clair?

Oui, nous l'avons dit hier, il utilise TPU, unit�s de traitement de dix, repr�sentent seulement un dixi�me de la quantit� de calcul, de souligner ici, fait r�f�rence � la fois � un dixi�me des comptes consommation d'�nergie pour seulement un dixi�me du pr�c�dent Tout d'abord, l'op�ration se r�f�re �galement � un dixi�me des ressources que d'appeler avant.

5. Would vous mentionnez AlphaGo Lee a utilis� 50 ou si TPU sur le nuage Google, moins quantit� de temps de calcul de sa puissance de calcul, � la fin est combien de TPU?

Est un seul (une seule machine), il y a quatre serveurs physiques au-dessus du TPU.

6. AlphaGo hier moiti� du jeu, devrait logiquement �tre inf�rieure au temps pr�c�dent, pourquoi vous continuez � jouer Lazi vitesse uniforme, l'algorithme derri�re ce fait quels param�tres?

Nous calculons chaque �tape est continue et stable, il est temps d'�laborer une strat�gie Qiuwen par les pairs pour parvenir � une utilisation maximale du temps, nous pensons donc que l'uniforme est le meilleur.

7. Pourquoi AlphaGo en se faisant passer le temps droit Master60 avait battu Jie Ke, pourquoi tenir ce concours?

M. David Silver, chercheur principal de d�claration AlphaGo:

La nouvelle version de AlphaGo, l'auto-formation a quelques millions de fois, et dans la d�tection des faiblesses dans les anciennes versions de performances exceptionnelles. En cons�quence, la nouvelle version de l'ancienne version AlphaGo peut faire trois sous. Mais quand jeu d'�checs AlphaGo et n'a jamais eu des joueurs humains, cet avantage cessera d'exister, surtout dans un ma�tre d'�checs Ke propre, il pourrait nous aider � d�couvrir de nouvelles vuln�rabilit�s Alphago jamais montrer. Une telle mesure n'est pas comparable. Pour la deuxi�me tour de jeu et troisi�me tour de cette semaine, nous verrons.

La nouvelle version de AlphaGo a form� contre lui-m�me des millions de fois, et a appris � devenir tr�s bon � exploiter les faiblesses dans les versions pr�c�dentes. Voil� pourquoi il est �g� d'environ trois pierres plus forte dans Mais les jeux en t�te-�-t�te contre son ancienne auto. Qui doesn � ai rien moyenne quand il se heurte � un joueur humain avec qui AlphaGo n'a jamais form� -. en particulier un grand ma�tre comme Ke Jie, qui peuvent d�couvrir de nouvelles faiblesses, nous ne savons pas sur les �chelles ne sont tout simplement pas comparables nous sommes tr�s enthousiastes. pour les deuxi�me et troisi�me jeux cette semaine - David Silver, chercheur principal AlphaGo

Ping Lu Lei Feng r�seau de la couverture exclusive de la technologie AI, sans autorisation, a refus� de r�impression.

Route de la soie

Apprenez � conna�tre la Chine

Site | David Silver original: Discours algorithmes nouvelle version de AlphaGo secr�tes et les d�tails de la formation

AlphaGo Ma�tre de mat�riel, des algorithmes et des d�tails de la formation

Apr�s le discours d'ouverture, Demis Hassabis + David Silver a accept� Lei Feng r�seau AI Technology Review, y compris un certain nombre d'entrevues dans les m�dias, quelques-uns des endroits que nous sommes plus int�ress�s, �tre accompagn�s ici: