Passer sous si facile, quantique AlphaZero informatique jeu de démarrage!

Source: New Ji-won

Cet article sur 3073 mots lecture recommandée 9 minutes .

Cet article décrit les chercheurs danois et allemand utilisé Deepmind de AlphaZero a développé un algorithme hybride, les capacités de recherche AlphaZero puissant et l'informatique quantique moissonneuse-batteuse vitesse de recherche paramétrique a augmenté de façon spectaculaire.

Au cours des dernières décennies explorer la technologie de la physique quantique, le plus frappant est la Quantum Computer .

Capacité d'ordinateurs quantiques, est une combinaison de tous les ordinateurs existants ensemble ne peuvent pas correspondre . Mais jusqu'à présent, il n'a pas été en mesure de produire un ordinateur quantique entièrement fonctionnel. Cela nous oblige à grands pas en avant dans la capacité de contrôler des systèmes quantiques.

Pourquoi AlphaZero peut pas rapide « prédire l'avenir »?

AlphaZero départ est conçu pour jouer au Go. Position Go Lazi trop d'une sorte. En revanche, les échecs ne peut marcher.

Donc AlphaZero utiliser un réseau de neurones profonds, il a appris de la possibilité d'un emplacement spécifique pour commencer à évaluer à gagner. Pour gagner, AlphaZero a une fonction appelée Monte-Carlo Recherche Arbre, cette approche peut aider dans le jeu « pour prédire l'avenir. »

En raison de la possibilité d'un échantillon relativement faible de toutes les stratégies possibles et les réseaux de neurones ne peut être qu'approximative, donc en particulier dans sa phase de formation, Monte Carlo arbre de recherche peut améliorer considérablement la précision et l'efficacité du jeu de formation.

Ceci est similaire à un joueur professionnel dans le jeu d'échecs peut penser à quelques pas avant d'échecs. les résultats de formation sont tout à fait étonnante, AlphaZero rapidement détruit le logiciel de jeu professionnel et les joueurs humains. Par exemple, Après seulement quatre heures de pratique auto d'échecs, AlphaZero battre le leader stockfish logiciel d'échecs en échecs . Et il est tout à fait à partir de zéro, en commençant AlphaZero ne connaissait pas les règles du jeu. maître d'échecs danois Peter Heine Nielsen aux espèces exotiques avancées ont visité la Terre par rapport à un.

À l'heure actuelle AlphaZero a effectivement battu son adversaire aux échecs, échecs et StarCraft. La clé du succès est de Monte-Carlo AlphaZero Arbre de recherche et de prospective profondeur combinée réseau de neurones . Les résultats montrent que l'étendre hors de l'arbre une information de prédiction a grandement amélioré la précision de la profondeur du réseau de neurones pour faire des prédictions plus mise au point précise, plutôt que l'exploration préliminaire.

AlphaZero frappant: 30 heures un ordre de grandeur amélioration de la performance

De manière similaire à l'ordinateur classique, un ordinateur quantique en utilisant le fonctionnement des portes (opérations de grille) pour manipuler leur qubit. Nous avons essayé de réaliser une commande de porte notamment par la construction d'une séquence d'impulsions constante par morceaux, à savoir AlphaZero doit sélectionner une largeur d'impulsion de chaque intervalle de temps (pas de temps). système physique par une matrice 4x4 complexe U (tj) dans la description mathématique de chaque tj pas de temps, nous avons plié dans un vecteur de longueur 32. Ceci est l'entrée du réseau neuronal, comme le montre la Fig. Après l'achèvement de la séquence d'impulsions, il peut être une matrice U (T) complexe est associé à un nombre réel, appelé une fidélité de simulation (fidélité) F, la valeur d'un nombre réel compris entre 0 et 1. Pour l'essentiel, la fidélité de la simulation est une mesure probabiliste, où 1 représente 100% de réussite.

Illustre 1.AlphaZero MCTS (à gauche) et la profondeur la figure au moyen du réseau neuronal (de droite)

Gauche et à droite, respectivement, montrent la recherche d'arbres AlphaZero et les réseaux de neurones. Utilisation de la recherche d'arbres dans un résultats de recherche unifiée en entrée au réseau de neurones. réseau de neurones se rapproche du courant de sortie de limite supérieure à un état d'entrée de politique donné, à savoir, p a ~ a ~ pa a. Dans le même temps, il fournit une valeur de sortie plus faible de la fonction peut être estimée récompense finale souhaitée, à savoir, v (s t) ~ (t) v (r) ~ f (t). Dans notre travail, nous avons trouvé une forme cohérente de systèmes physiques pour fournir des informations complètes au AlphaZero, il est favorable à l'amélioration de ses performances, bien que cette façon peut être plus difficile à adapter au système avec un espace de Hilbert plus grande.

Une valeur de sortie du réseau neuronal, qui est une estimation de la valeur finale de la fidélité de la simulation et certains vF mobiles probabilité p = (p1, p2, ...) est. Les deux sont utilisés dans la recherche de l'arbre Monte Carlo. Par le nud d'arbre (état) et des bords (état - fonctionnement de la) composition. Rechercher départ de l'arbre de la racine, à courir à travers l'arbre et en sélectionnant l'opération à chaque étape. Quelles sont les options d'action, est un moyen d'exploration et de développement d'équilibrage effectué en comparant les propriétés intrinsèques de chaque bord. exploration Une fois sur le point de ses propriétés inhérentes sera mise à jour des résultats de recherche.

recherche avant arbre continuera jusqu'à ce qu'il rencontre un nud non encore regardée, puis ajoutez le nud à l'arbre, et en utilisant p initialize son bord. Toutes les parties ont visité la recherche utilisera processus de mise à jour v dans le sens inverse. Une fois qu'un certain nombre de ces recherches effectuées, AlphaZero opération pour déterminer et mettre à jour un noeud de racine, l'arbre est mis au rebut et la partie restante. Enfin, la recherche de l'arbre sur la base des données générées par le réseau de neurones pour être mis à jour de sorte que près de v à la fidélité, et la probabilité de déplacement augmente la possibilité de choisir une action plus prometteuse.

En bref: Monte-Carlo arbre de recherche permet AlphaZero regarder vers l'avenir à quelques pas, ce qui permet un espace de recherche plus globale de la solution. Cela rend AlphaZero que la plupart des autres méthode d'apprentissage de renforcement d'un avantage dans la tâche complexe de la stratégie à long terme est essentiel.

Après la mise en uvre réussie de AlphaZero, nous utilisons les mêmes paramètres de l'algorithme à utiliser pour les super trois différents problèmes de contrôle quantique. Pour chaque problème, nous AlphaZero par rapport à des algorithmes plus classiques. Par exemple, la figure 2, on compare les algorithmes AlphaZero et génétiques pour créer l'impulsion binaire pendant les 50 heures de tâches de fonctionnement. L'axe des y, nous attirons l'infidélité 1-F, qui est en fait un taux d'erreur (à savoir, plus le mieux). Dans un premier temps, AlphaZero associée à la mécanique quantique dans les performances d'apprentissage des algorithmes génétiques, mais cette phase d'apprentissage relativement courte. Dans les 30 heures, nous avons trouvé la performance AlphaZero augmenté d'un ordre de grandeur plus élevé que l'algorithme génétique Et ayant un grand nombre de fidélité unique séquence d'impulsions.

Figure 2. Comparaison de l'algorithme génétique et AlphaZero plus de 50 heures de fonctionnement. L'infidélité tracé l'axe y (1-F), qui est en fait un taux d'erreur

Mixte informatique quantique AlphaZero, plus rapide Recherche fois 500

AlphaZero perd le physicien n'est pas surprenant qu'au cours des 15 dernières années d'amélioration continue de l'algorithme d'optimisation très quantifiée. Cependant, si AlphaZero mourir ici, nous laisserons beaucoup de regret.

Puisque l'algorithme d'optimisation de gradient de fonction ne moyens d'apprentissage que le processus de formation n'augmente progressivement ses performances, et toutes les données générées seront mis au rebut, et non pour une étude ultérieure.

équipe de l'Université d'Aarhus a commencé à la recherche d'un algorithme hybride: AlphaZero objet de semence produite par la haute disponibilité d'une large gamme d'exploration, puis en optimisant leurs méthodes à base de gradient, cette méthode est la quantité et la qualité des solutions ont été grandement améliorées .

En fait, AlphaZero et optimisation de gradient pour résoudre différents problèmes: AlphaZero peut apprendre la solution à la structure de base, l'espace partiel d'optimisation gradient autour du système d'optimisation de la solution d'ensemencement . Si seulement l'optimisation gradient, après 50 heures de simulation, nous pouvons avoir deux ou trois solutions prometteuses, mais par notre algorithme hybride, vous pouvez obtenir un millier .

Les puissantes méthodes d'apprentissage de la machine universelle combinée avec la force brute de l'expertise humaine dans des domaines spécifiques des résultats de calcul sont encourageants. Echecs a déjà franchi la première étape, la connaissance humaine hybride et l'équipe d'experts combineront moteur stockfish, peuvent surpasser les humains et les algorithmes en même temps.

Récemment Gary Marcus et David Ernest dans leur nouveau livre, « Restart AI: Intelligence artificielle la construction de notre confiance » dans le processus de prise de décision proposée sera inspirée par les méthodes spécifiques au domaine de l'homme et les domaines de méthodes communes et couches combinées pour construire l'avenir l'un des éléments essentiels de procédés AI forte. Cela peut résoudre l'un des plus méthode directe inconvénients AlphaZero: beaucoup hyperparam'etres, mais utile que dans une gamme limitée.

Dans certains cas, le même ensemble super de paramètres peuvent bien fonctionner dans trois cas quantique, lors du changement de réglage du problème, AlphaZero ne résoudra pas.

Les ordinateurs quantiques utilisent le parallélisme quantique a grandement amélioré le compteur de vitesse, mais la question à nouveau: les paramètres de contrôle de l'espace de recherche de croître de façon exponentielle. Les expériences montrent AlphaZero solutions approchées et imparfaits fournies par le réseau de neurones peuvent agir comme un générateur de semence locale puissante heuristique de force brute .

En plus d'optimiser la conception, calcul quantique aspects de la performance de l'algorithme lui-même est aussi rapide augmentation.

découverte aurifère de surface Majorana quantique ère de l'informatique fermions à venir?

L'informatique quantique a récemment des localités.

Danois, scientifiques allemands coup de tête AlphaZero résoudre le problème du calcul quantique, les scientifiques du MIT, etc. sur la surface de l'or, Majorana fermion observé, réalisant ainsi le calcul quantique pour séparer les particules dans une étable, protection contre les erreurs qubits il a franchi une étape importante dans le domaine, qui a été publié dans la « Académie nationale américaine des sciences. »

Dans la physique des particules, Majorana fermion est un type de particules élémentaires, y compris des électrons, des protons, des neutrons et quark, il est antiparticle lui-même. théorie Majorana proposée par le physicien italien Ettore en 1937.

Majorana fermion

Malheureusement, après le physicien mis en avant la théorie de moins d'un an, dans un voyage en ferry mystérieux de la côte italienne disparu. Depuis lors, tout le monde a cherché Maiorana et son fermions de Majorana. En fin de compte, ils ont abandonné la recherche Maiorana, mais n'a jamais cessé de chercher ses fermions.

Maintenant, la fabrication de la surface du matériau d'or sur le fil supraconducteur constitué d'une équipe de matériau de vanadium cultivé dirigé par le MIT, a trouvé caractéristique de signal de crête proche de zéro énergie. Apparemment, selon la théorie actuelle de la physique, en plus de ce droit Mayola fermions, il n'y a pas d'autre possibilité.

Majorana fermion serait idéal pour une seule unité d'ordinateurs quantiques ou des bits quantiques, un bit quantique sera jumelé Mayola que la composition de fermions, que les scientifiques ont depuis longtemps le rêve de matériel!

Si le fermions de Majorana a été complètement confirmé, nous avancerons dans l'ère de l'informatique quantique!

Les liens de référence:

https://aihub.org/2020/04/03/alphazero-learns-to-solve-quantum-problems/

https://www.nature.com/articles/s41534-019-0241-0

https://phys.org/news/2020-04-sighting-mysterious-majorana-fermion-common.html

- FIN -

attention Tsinghua - données Académie des sciences de Qingdao plate-forme publique micro-canal officiel "  AI pour envoyer des données  « Sisters et n ° » Les données envoyées THU  « Pour plus de conférences et de bien-être contenu de qualité.

L'apprentissage machine génère des avantages économiques, l'hiver prochain IA ne vient jamais
Précédent
Une demi-heure de formation cent millions connaissance de la cartographie à grande échelle, open source Amazon cadre de représentation des connaissances AI carte intégrée
Prochain
Stanford toilettes intelligent avec des veines anales peut connaître les gens, les selles et l'urine considèrent votre message « vendu »
Sur la base de la compréhension sémantique de la technologie et de l'application de la carte des connaissances
données d'image roman coronavirus ensemble de documents analytiques (avec liens)
Watson Kennedy a parlé de la nouvelle infrastructure - l'industrie de l'Internet - valeur Cube (PPT télécharger)
Google auto-développé borne puce AI exposé des progrès importants, Samsung unissent leurs forces pour ordinateur portable téléphones mobiles
ère secrète 5G + AI du monde du robot! Sept technologie de base au changement la vie humaine
GitHub ouvert à la fonctionnalité de base de 40 millions de développeurs libres du monde! AI vient de mettre un grand modèle
l'intelligence artificielle et de la race de l'intelligence humaine: l'intelligence humaine contre le peigne ensemble
Utilisez Python pour écrire un émulateur Gameboy et entraîner des modèles d'IA!
Thé persistante pendant près de 60 ans, Meizhou Jiaoling saisir l'occasion pour polir « spéciale banane » nouvelle carte
Yangjiang policiers recueillaient à minuit, le réseau inter-provincial de gangs de fraude arrêté
Plus Carte Voir Hailing drill anti-terroriste! Restaurer les capacités d'intervention d'urgence de test de Somethin