La plus forte est tomb� AlphaGo, par rapport � moins de Ke Jie a dit � trop beaucoup plus qu'un humain �

la recherche de l'intelligence artificielle dans la reconnaissance vocale, la classification des images, la g�nomique et le d�veloppement de m�dicaments et d'autres domaines a fait du d�veloppement rapide. Dans de nombreux cas, ces syst�mes reposent sur un grand nombre de comp�tences professionnelles et des donn�es de l'homme.

Cependant, pour certaines questions, ce savoir humain ou les donn�es peuvent �tre trop co�teuses, peu fiables ou pas du tout. Par cons�quent, un objectif � long terme de la recherche sur l'intelligence artificielle est de contourner cette �tape et cr�er dans les zones les plus difficiles dans une performance surhumaine, mais aussi de se d�barrasser du niveau d'entr�e manuelle traditionnelle.

Parmi lesquels le plus repr�sentatif et le plus connu que l'application de l'intelligence artificielle Go AlphaGo d�veloppement Google DeepMind. Aujourd'hui m�me, � Nature � site officiel a publi� un article intitul� � Autodidacte IA est mieux encore au jeu de strat�gie Go � article titre, DeepMind dernier document sur AlphaGo z�ro sera �galement expos�.

�raflure

AlphaGo est la premi�re d�faite des champions du monde du monde dans ce jeu chinois antique de Go en IA, mais les derniers top beat humain AlphaGo version joueurs Ke Jie dans la machine de guerre de l'homme cette ann�e a chang� --AlphaGo Zero-- encore plus puissant, on peut dire d'�tre � dans l'histoire des plus forts joueurs d'�checs. �

joueur chinois Jie Ke AlphaGo z�ro apr�s avoir appris des nouvelles, aussi la premi�re fois micro-Bo a dit: bien plus qu'un homme ......

Les versions pr�c�dentes de AlphaGo initialement accept�es en fonction des milliers de formation de jeu amateur et professionnel, et AlphaGo z�ro sauter cette �tape, � partir de l'auto simple et jeu d'�checs au hasard, apr�s AlphaGo z�ro rapidement que le niveau humain, non seulement cela, il a �galement 100: score parfait de 0 AlphaGo a battu la version pr�c�demment annonc�e de � Ma�tre �.

Avec le nouveau mode d'apprentissage de renforcement (apprentissage par renforcement), AlphaGo Z�ro vraiment � Autodidacte �. Les d�parts ensemble du syst�me AI avec un r�seau de neurones sur l'ignorance vont, gr�ce � un moteur de recherche puissant pour jouer aux �checs avec lui-m�me. Ce fut � l'origine un r�seau de neurones en blanc et le nombre de jeux sur son propre bureau, l'ajustement plus pr�cis et de pr�voir la prochaine loi de mouvement, la ma�trise de go plus en plus haut.

Cette mise � niveau � nouveau par l'int�gration du r�seau de neurones et des algorithmes de recherche, pour finalement former un nouveau AlphaGo plus puissant z�ro, et ne cesse de r�p�ter le processus. Dans chaque version d'it�ration, la performance du syst�me a une petite am�lioration, les �checs auto de qualit� sont �galement de plus en plus, cr�ant ainsi un r�seau de neurones plus pr�cis, ce qui est sans pr�c�dent forte AlphaGo z�ro.

Cette technologie par rapport � la version pr�c�dente de AlphaGo pour �tre plus puissant, car il est plus soumis aux limites de la connaissance humaine. Au lieu de cela, il peut �tre le plus fort dans le AlphaGo du monde o� l'acc�s � l'apprentissage et � l'am�lioration.

En outre, il dispose �galement d'une version ant�rieure des diff�rences importantes dans d'autres domaines:

AlphaGo z�ro en utilisant uniquement des pierres noires et blanches sur la carte comme entr�e, la version pr�c�dente contient une petite quantit� de artificielle fonction de r�glage de AlphaGo.
AlphaGo Z�ro utiliser uniquement un r�seau de neurones. Les versions ant�rieures AlphaGo est utilise deux r�seaux de neurones, � strat�gie de r�seau � permet de s�lectionner la prochaine �tape, � r�seau de valeur � De chaque mouvement pr�dire le gagnant du jeu. Les deux parties � int�grer dans le z�ro AlphaGo, de sorte qu'il est possible de former de mani�re plus efficace et d'�valuation.
AlphaGo z�ro ni � enfant marche � (de d�ploiement) les autres programmes Go utilis�s pour sp�culer sur la m�thode gagnante du jeu. Elle doit donc compter sur ses r�seaux de neurones de haute qualit� pour �valuer comment prendre toutes les mesures possibles pour finalement gagner.

Toutes ces diff�rences contribueront � am�liorer les performances du syst�me et de le rendre plus polyvalent. Mais le noyau est d'am�liorer l'algorithme rend plus robuste et plus efficace du syst�me.

Figure Shu gr�ce aux algorithmes double d'optimisation et le mat�riel, l'efficacit� AlphaGo a �t� une mise � niveau sans pr�c�dent

apr�s seulement trois jours Apr�s l'auto-formation, AlphaGo z�ro pour battre facilement cette version AlphaGo et Lee bataille Se-dol, mais 100 jeux sans un duel de d�faite. mais apr�s �40 jours Apr�s l'auto-formation, AlphaGo Z�ro est devenu plus fort, et battre la version de AlphaGo, � la fois � Master � lorsque le num�ro un mondial est perdu � Jie Ke Ma�tre.

Figure Shu ELO syst�me de notation (notes ELO), est une autorit� reconnue au niveau d'�checs d'aujourd'hui la m�thode d'�valuation

Dans le document sur DeepMind dernier, mais aussi ses principes techniques et m�canismes d'apprentissage � faire une analyse approfondie de AlphaGo z�ro. Voici les points saillants du papier:

Carte | � ou ne pas utiliser la connaissance humaine � ma�triser le Go"

AI un champ objectif � long terme est d'�tre dans un domaine difficile, du � blanc � (Tabula Rasa) pour commencer � apprendre jusqu'� ce que l'algorithme au-del� de la capacit� humaine.

L'ann�e derni�re, AlphaGo est devenu le premier � vaincre le champion du monde humain sur le logiciel Go. AlphaGo arbre de recherche peut analyser la situation, et en utilisant la s�lection de r�seau de neurones en profondeur toutes les �tapes du Lazes. Ces r�seaux de neurones � l'aide d'�checs d'apprentissage supervis� la mani�re d'un expert humain, et l'utilisation de l'apprentissage et de la formation renforc�e en soi sur les �checs. Nous vous proposons un apprentissage de renfort � base pure, il ne n�cessite aucune connaissance des algorithmes et des donn�es que toute aide humaine ou une r�gle dans le pr�sent document. AlphaGo est devenu son propre ma�tre: un r�seau de neurones peut �tre form� pour pr�dire AlphaGo leur chaque �tape, m�me le vainqueur de chaque match.

Le r�seau de neurones peut am�liorer la force de l'arbre de recherche, ce qui Lazi choisir une meilleure qualit�, ainsi que la prochaine s�rie de jeux en soi des joueurs plus forts. De la � blanc � a commenc�, notre nouveau programme --AlphaGo z�ro au-del� de la performance humaine � atteindre: Pour obtenir un 100 incroyable victoire 2-0 victoire sur la race humaine dans le champion d'�checs AlphaGo pr�c�demment publi�.

AlphaGo design original avec deux r�seaux de neurones profonds: un calcul de la probabilit� de chaque �tape Lazi r�seau de r�flexion, et la valeur d'un apr�s chaque �tape de calcul de la situation de r�seau. Ces deux r�seaux de neurones sont Monte Carlo Arbre Recherche (SCTM) combin�s ensemble: strat�gies r�tr�cissent le r�seau de recherche est une forte probabilit� de Lazes, avec la valeur du r�seau pour d�terminer la situation de chaque arbre de recherche. La victoire sur Lee Se-dol cette version AlphaGo Il est cette conception.

Figure Shu AlphaGo Versus Lee Se-dol

AlphaGo Zero est la nouvelle version de l'original a un certain nombre de diff�rences importantes. Tout d'abord, il est d'un �tat al�atoire Lazes, les �checs et am�lior� enti�rement gr�ce � l'auto-apprentissage form�. En second lieu, il est fonction de l'entr�e que des pierres noires et blanches sur la carte. Encore une fois, il utilise un r�seau de neurones, plut�t que la strat�gie et la valeur de ces deux r�seaux de neurones. En fin de compte, il utilise la recherche d'arbres plus facile, ne compter que sur ce seul r�seau de neurones pour juger de la situation et Lazes, sans enfant � aller vite Monte Carlo (Monte Carlo Rollout).

En termes simples, les r�seaux de neurones AlphaGo z�ro sera la prochaine �tape de la possibilit� de la premi�re liste, puis choisissez la solution optimale dans ces possibilit�s en effectuant Monte Carlo arbre Recherche (SCTM). Le r�sultat du calcul par le r�seau neuronal et la comparaison des SCTM r�sultats filtr�s, puis l'inverse du r�seau neuronal est ajust� param�tres optimis�s de telle sorte que l'erreur entre le r�seau neuronal et MCTS plus petites. Lorsque le prochain tour des jeux eux-m�mes, le r�seau de neurones aura une version am�lior�e des param�tres. En r�p�tant constamment ce processus, apr�s des millions d'optimisation, et finalement cr�er un puissant AlphaGo z�ro.

AlphaGo m�canisme d'auto-apprentissage renfort aux �checs

Apr�s l'�quipe DeepMind de d�terminer les principes techniques de cet apprentissage de renforcement, et l'appliquer sur la deuxi�me version de AlphaGo Zero, cette version dispose d'un r�seau de neurones plus grandes et plus le temps de formation. A partir de l'enfant marche al�atoire � de d�sempar�s �, la formation n'a dur� environ 40 jours.

Tout au long du processus de formation, AlphaGo Z�ro a effectu� un total de 29 millions de fois auto �checs, a param�tres 3,1 millions de fois la mise � niveau. Par la suite, l'�quipe DeepMind maintenant en interne AlphaGo Z�ro a jou� l'�valuation de la force, ont �t� utilis�s pour surmonter la version AlphaGo Fan Hui et Lee Se-dol, et � 60 en Janvier 20170 victoire en ligne des joueurs humains les plus forts AlphaGo Ma�tre, venez avec AlphaGo Z�ro �checs.

Tout au long du processus d'�valuation de la profondeur de la pens�e, chaque version AlphaGo sont � seulement 5 secondes pour � penser � la prochaine loi de d�placement. Dans laquelle AlphaGo Z�ro AlphaGo ma�tre et �quip� de seulement quatre TPU (tenseur unit� de traitement), qui surmontent pr�c�demment et Fan Hui Lee Se-dol de AlphaGo respectivement 176 et 48 TPU.

Le r�sultat final est que, pendant deux heures et la bataille de Conseil AlphaGoZero AlphaGo Ma�tre 100 initial, la victoire premi�re � la seconde de 89:11.

Figure Shu classement des �checs ELO AlphaGo pass� trois jours au-del� de la version AlphaGo Lee Se-dol pendant 21 jours au-del� AlphaGo Ma�tre.

syst�me de classement ELO (notes ELO) est une mesure cr��e par la mesure physicien am�ricano-hongrois Elo du jeu concurrentiel relatif du niveau de comp�tence de la m�thode des joueurs, la m�thode est une autorit� reconnue sur l'�valuation actuelle du niveau d'�checs, il est largement utilis� �checs, dames, football et autres sports, ainsi que de nombreux jeux en ligne et de l'industrie des jeux �lectroniques. Dans le processus de d�veloppement dans AlphaGo, le changement de classement Elo la Visualize AlphaGo la rapidit� devenir forte.

Dans les dizaines de millions de syst�me de jeu AlphaGo pk AlphaGo � partir de z�ro et d'apprendre progressivement le jeu de Go, et savoir humain depuis des milliers d'ann�es dans quelques jours. En outre, AlphaGo Z�ro a �galement d�couvert que de nouvelles connaissances peuvent d�velopper des strat�gies et des innovations non conventionnelles, et m�me au-del� de son premier match avec Lee Se-dol et Ke Jie a jou� dans un mouvement de surprise.

AlphaGo ces moments de cr�ativit�, nous avons confiance dans l'avenir: artificiel Smart deviendra plus �lev� que la cr�ativit� de l'existence humaine, et pour nous aider � r�soudre certains des plus importants d�fis auxquels fait face l'humanit�.

Bien qu'il soit encore dans les premiers stades de cette vision, mais AlphaGo Zero est une �tape cl� pour atteindre cet objectif. Si une technique similaire peut �tre appliqu�e � d'autres probl�mes structurels tels que le repliement des prot�ines, de r�duire la consommation d'�nergie ou de trouver un nouveau mat�riau r�volutionnaire, qui a une grande perc�e potentielle dans un impact positif sur la soci�t�.

Route de la soie

Apprenez � conna�tre la Chine

La plus forte est tomb� AlphaGo, par rapport � moins de Ke Jie a dit � trop beaucoup plus qu'un humain �