Source: New Ji-won

Cet article sur 3073 mots lecture recommand�e 9 minutes .

Cet article d�crit les chercheurs danois et allemand utilis� Deepmind de AlphaZero a d�velopp� un algorithme hybride, les capacit�s de recherche AlphaZero puissant et l'informatique quantique moissonneuse-batteuse vitesse de recherche param�trique a augment� de fa�on spectaculaire.

Au cours des derni�res d�cennies explorer la technologie de la physique quantique, le plus frappant est la Quantum Computer .

Capacit� d'ordinateurs quantiques, est une combinaison de tous les ordinateurs existants ensemble ne peuvent pas correspondre . Mais jusqu'� pr�sent, il n'a pas �t� en mesure de produire un ordinateur quantique enti�rement fonctionnel. Cela nous oblige � grands pas en avant dans la capacit� de contr�ler des syst�mes quantiques.

Pourquoi AlphaZero peut pas rapide � pr�dire l'avenir �?

AlphaZero d�part est con�u pour jouer au Go. Position Go Lazi trop d'une sorte. En revanche, les �checs ne peut marcher.

Donc AlphaZero utiliser un r�seau de neurones profonds, il a appris de la possibilit� d'un emplacement sp�cifique pour commencer � �valuer � gagner. Pour gagner, AlphaZero a une fonction appel�e Monte-Carlo Recherche Arbre, cette approche peut aider dans le jeu � pour pr�dire l'avenir. �

En raison de la possibilit� d'un �chantillon relativement faible de toutes les strat�gies possibles et les r�seaux de neurones ne peut �tre qu'approximative, donc en particulier dans sa phase de formation, Monte Carlo arbre de recherche peut am�liorer consid�rablement la pr�cision et l'efficacit� du jeu de formation.

Ceci est similaire � un joueur professionnel dans le jeu d'�checs peut penser � quelques pas avant d'�checs. les r�sultats de formation sont tout � fait �tonnante, AlphaZero rapidement d�truit le logiciel de jeu professionnel et les joueurs humains. Par exemple, Apr�s seulement quatre heures de pratique auto d'�checs, AlphaZero battre le leader stockfish logiciel d'�checs en �checs . Et il est tout � fait � partir de z�ro, en commen�ant AlphaZero ne connaissait pas les r�gles du jeu. ma�tre d'�checs danois Peter Heine Nielsen aux esp�ces exotiques avanc�es ont visit� la Terre par rapport � un.

� l'heure actuelle AlphaZero a effectivement battu son adversaire aux �checs, �checs et StarCraft. La cl� du succ�s est de Monte-Carlo AlphaZero Arbre de recherche et de prospective profondeur combin�e r�seau de neurones . Les r�sultats montrent que l'�tendre hors de l'arbre une information de pr�diction a grandement am�lior� la pr�cision de la profondeur du r�seau de neurones pour faire des pr�dictions plus mise au point pr�cise, plut�t que l'exploration pr�liminaire.

AlphaZero frappant: 30 heures un ordre de grandeur am�lioration de la performance

De mani�re similaire � l'ordinateur classique, un ordinateur quantique en utilisant le fonctionnement des portes (op�rations de grille) pour manipuler leur qubit. Nous avons essay� de r�aliser une commande de porte notamment par la construction d'une s�quence d'impulsions constante par morceaux, � savoir AlphaZero doit s�lectionner une largeur d'impulsion de chaque intervalle de temps (pas de temps). syst�me physique par une matrice 4x4 complexe U (tj) dans la description math�matique de chaque tj pas de temps, nous avons pli� dans un vecteur de longueur 32. Ceci est l'entr�e du r�seau neuronal, comme le montre la Fig. Apr�s l'ach�vement de la s�quence d'impulsions, il peut �tre une matrice U (T) complexe est associ� � un nombre r�el, appel� une fid�lit� de simulation (fid�lit�) F, la valeur d'un nombre r�el compris entre 0 et 1. Pour l'essentiel, la fid�lit� de la simulation est une mesure probabiliste, o� 1 repr�sente 100% de r�ussite.

Illustre 1.AlphaZero MCTS (� gauche) et la profondeur la figure au moyen du r�seau neuronal (de droite)

Gauche et � droite, respectivement, montrent la recherche d'arbres AlphaZero et les r�seaux de neurones. Utilisation de la recherche d'arbres dans un r�sultats de recherche unifi�e en entr�e au r�seau de neurones. r�seau de neurones se rapproche du courant de sortie de limite sup�rieure � un �tat d'entr�e de politique donn�, � savoir, p a ~ a ~ pa a. Dans le m�me temps, il fournit une valeur de sortie plus faible de la fonction peut �tre estim�e r�compense finale souhait�e, � savoir, v (s t) ~ (t) v (r) ~ f (t). Dans notre travail, nous avons trouv� une forme coh�rente de syst�mes physiques pour fournir des informations compl�tes au AlphaZero, il est favorable � l'am�lioration de ses performances, bien que cette fa�on peut �tre plus difficile � adapter au syst�me avec un espace de Hilbert plus grande.

Une valeur de sortie du r�seau neuronal, qui est une estimation de la valeur finale de la fid�lit� de la simulation et certains vF mobiles probabilit� p = (p1, p2, ...) est. Les deux sont utilis�s dans la recherche de l'arbre Monte Carlo. Par le nud d'arbre (�tat) et des bords (�tat - fonctionnement de la) composition. Rechercher d�part de l'arbre de la racine, � courir � travers l'arbre et en s�lectionnant l'op�ration � chaque �tape. Quelles sont les options d'action, est un moyen d'exploration et de d�veloppement d'�quilibrage effectu� en comparant les propri�t�s intrins�ques de chaque bord. exploration Une fois sur le point de ses propri�t�s inh�rentes sera mise � jour des r�sultats de recherche.

recherche avant arbre continuera jusqu'� ce qu'il rencontre un nud non encore regard�e, puis ajoutez le nud � l'arbre, et en utilisant p initialize son bord. Toutes les parties ont visit� la recherche utilisera processus de mise � jour v dans le sens inverse. Une fois qu'un certain nombre de ces recherches effectu�es, AlphaZero op�ration pour d�terminer et mettre � jour un noeud de racine, l'arbre est mis au rebut et la partie restante. Enfin, la recherche de l'arbre sur la base des donn�es g�n�r�es par le r�seau de neurones pour �tre mis � jour de sorte que pr�s de v � la fid�lit�, et la probabilit� de d�placement augmente la possibilit� de choisir une action plus prometteuse.

En bref: Monte-Carlo arbre de recherche permet AlphaZero regarder vers l'avenir � quelques pas, ce qui permet un espace de recherche plus globale de la solution. Cela rend AlphaZero que la plupart des autres m�thode d'apprentissage de renforcement d'un avantage dans la t�che complexe de la strat�gie � long terme est essentiel.

Apr�s la mise en uvre r�ussie de AlphaZero, nous utilisons les m�mes param�tres de l'algorithme � utiliser pour les super trois diff�rents probl�mes de contr�le quantique. Pour chaque probl�me, nous AlphaZero par rapport � des algorithmes plus classiques. Par exemple, la figure 2, on compare les algorithmes AlphaZero et g�n�tiques pour cr�er l'impulsion binaire pendant les 50 heures de t�ches de fonctionnement. L'axe des y, nous attirons l'infid�lit� 1-F, qui est en fait un taux d'erreur (� savoir, plus le mieux). Dans un premier temps, AlphaZero associ�e � la m�canique quantique dans les performances d'apprentissage des algorithmes g�n�tiques, mais cette phase d'apprentissage relativement courte. Dans les 30 heures, nous avons trouv� la performance AlphaZero augment� d'un ordre de grandeur plus �lev� que l'algorithme g�n�tique Et ayant un grand nombre de fid�lit� unique s�quence d'impulsions.

Figure 2. Comparaison de l'algorithme g�n�tique et AlphaZero plus de 50 heures de fonctionnement. L'infid�lit� trac� l'axe y (1-F), qui est en fait un taux d'erreur

Mixte informatique quantique AlphaZero, plus rapide Recherche fois 500

AlphaZero perd le physicien n'est pas surprenant qu'au cours des 15 derni�res ann�es d'am�lioration continue de l'algorithme d'optimisation tr�s quantifi�e. Cependant, si AlphaZero mourir ici, nous laisserons beaucoup de regret.

Puisque l'algorithme d'optimisation de gradient de fonction ne moyens d'apprentissage que le processus de formation n'augmente progressivement ses performances, et toutes les donn�es g�n�r�es seront mis au rebut, et non pour une �tude ult�rieure.

�quipe de l'Universit� d'Aarhus a commenc� � la recherche d'un algorithme hybride: AlphaZero objet de semence produite par la haute disponibilit� d'une large gamme d'exploration, puis en optimisant leurs m�thodes � base de gradient, cette m�thode est la quantit� et la qualit� des solutions ont �t� grandement am�lior�es .

En fait, AlphaZero et optimisation de gradient pour r�soudre diff�rents probl�mes: AlphaZero peut apprendre la solution � la structure de base, l'espace partiel d'optimisation gradient autour du syst�me d'optimisation de la solution d'ensemencement . Si seulement l'optimisation gradient, apr�s 50 heures de simulation, nous pouvons avoir deux ou trois solutions prometteuses, mais par notre algorithme hybride, vous pouvez obtenir un millier .

Les puissantes m�thodes d'apprentissage de la machine universelle combin�e avec la force brute de l'expertise humaine dans des domaines sp�cifiques des r�sultats de calcul sont encourageants. Echecs a d�j� franchi la premi�re �tape, la connaissance humaine hybride et l'�quipe d'experts combineront moteur stockfish, peuvent surpasser les humains et les algorithmes en m�me temps.

R�cemment Gary Marcus et David Ernest dans leur nouveau livre, � Restart AI: Intelligence artificielle la construction de notre confiance � dans le processus de prise de d�cision propos�e sera inspir�e par les m�thodes sp�cifiques au domaine de l'homme et les domaines de m�thodes communes et couches combin�es pour construire l'avenir l'un des �l�ments essentiels de proc�d�s AI forte. Cela peut r�soudre l'un des plus m�thode directe inconv�nients AlphaZero: beaucoup hyperparam'etres, mais utile que dans une gamme limit�e.

Dans certains cas, le m�me ensemble super de param�tres peuvent bien fonctionner dans trois cas quantique, lors du changement de r�glage du probl�me, AlphaZero ne r�soudra pas.

Les ordinateurs quantiques utilisent le parall�lisme quantique a grandement am�lior� le compteur de vitesse, mais la question � nouveau: les param�tres de contr�le de l'espace de recherche de cro�tre de fa�on exponentielle. Les exp�riences montrent AlphaZero solutions approch�es et imparfaits fournies par le r�seau de neurones peuvent agir comme un g�n�rateur de semence locale puissante heuristique de force brute .

En plus d'optimiser la conception, calcul quantique aspects de la performance de l'algorithme lui-m�me est aussi rapide augmentation.

d�couverte aurif�re de surface Majorana quantique �re de l'informatique fermions � venir?

L'informatique quantique a r�cemment des localit�s.

Danois, scientifiques allemands coup de t�te AlphaZero r�soudre le probl�me du calcul quantique, les scientifiques du MIT, etc. sur la surface de l'or, Majorana fermion observ�, r�alisant ainsi le calcul quantique pour s�parer les particules dans une �table, protection contre les erreurs qubits il a franchi une �tape importante dans le domaine, qui a �t� publi� dans la � Acad�mie nationale am�ricaine des sciences. �

Dans la physique des particules, Majorana fermion est un type de particules �l�mentaires, y compris des �lectrons, des protons, des neutrons et quark, il est antiparticle lui-m�me. th�orie Majorana propos�e par le physicien italien Ettore en 1937.

Majorana fermion

Malheureusement, apr�s le physicien mis en avant la th�orie de moins d'un an, dans un voyage en ferry myst�rieux de la c�te italienne disparu. Depuis lors, tout le monde a cherch� Maiorana et son fermions de Majorana. En fin de compte, ils ont abandonn� la recherche Maiorana, mais n'a jamais cess� de chercher ses fermions.

Maintenant, la fabrication de la surface du mat�riau d'or sur le fil supraconducteur constitu� d'une �quipe de mat�riau de vanadium cultiv� dirig� par le MIT, a trouv� caract�ristique de signal de cr�te proche de z�ro �nergie. Apparemment, selon la th�orie actuelle de la physique, en plus de ce droit Mayola fermions, il n'y a pas d'autre possibilit�.

Majorana fermion serait id�al pour une seule unit� d'ordinateurs quantiques ou des bits quantiques, un bit quantique sera jumel� Mayola que la composition de fermions, que les scientifiques ont depuis longtemps le r�ve de mat�riel!

Si le fermions de Majorana a �t� compl�tement confirm�, nous avancerons dans l'�re de l'informatique quantique!

Les liens de r�f�rence:

https://aihub.org/2020/04/03/alphazero-learns-to-solve-quantum-problems/

https://www.nature.com/articles/s41534-019-0241-0

https://phys.org/news/2020-04-sighting-mysterious-majorana-fermion-common.html

- FIN -

attention Tsinghua - donn�es Acad�mie des sciences de Qingdao plate-forme publique micro-canal officiel " �AI pour envoyer des donn�es �� Sisters et n � � Les donn�es envoy�es THU �� Pour plus de conf�rences et de bien-�tre contenu de qualit�.

Route de la soie

Apprenez � conna�tre la Chine

Passer sous si facile, quantique AlphaZero informatique jeu de d�marrage!

AlphaZero frappant: 30 heures un ordre de grandeur am�lioration de la performance

Mixte informatique quantique AlphaZero, plus rapide Recherche fois 500

d�couverte aurif�re de surface Majorana quantique �re de l'informatique fermions � venir?