La plus forte est tombé AlphaGo, par rapport à moins de Ke Jie a dit « trop beaucoup plus qu'un humain »

la recherche de l'intelligence artificielle dans la reconnaissance vocale, la classification des images, la génomique et le développement de médicaments et d'autres domaines a fait du développement rapide. Dans de nombreux cas, ces systèmes reposent sur un grand nombre de compétences professionnelles et des données de l'homme.

Cependant, pour certaines questions, ce savoir humain ou les données peuvent être trop coûteuses, peu fiables ou pas du tout. Par conséquent, un objectif à long terme de la recherche sur l'intelligence artificielle est de contourner cette étape et créer dans les zones les plus difficiles dans une performance surhumaine, mais aussi de se débarrasser du niveau d'entrée manuelle traditionnelle.

Parmi lesquels le plus représentatif et le plus connu que l'application de l'intelligence artificielle Go AlphaGo développement Google DeepMind. Aujourd'hui même, « Nature » site officiel a publié un article intitulé « Autodidacte IA est mieux encore au jeu de stratégie Go » article titre, DeepMind dernier document sur AlphaGo zéro sera également exposé.

éraflure

AlphaGo est la première défaite des champions du monde du monde dans ce jeu chinois antique de Go en IA, mais les derniers top beat humain AlphaGo version joueurs Ke Jie dans la machine de guerre de l'homme cette année a changé --AlphaGo Zero-- encore plus puissant, on peut dire d'être « dans l'histoire des plus forts joueurs d'échecs. »

joueur chinois Jie Ke AlphaGo zéro après avoir appris des nouvelles, aussi la première fois micro-Bo a dit: bien plus qu'un homme ......

Les versions précédentes de AlphaGo initialement acceptées en fonction des milliers de formation de jeu amateur et professionnel, et AlphaGo zéro sauter cette étape, à partir de l'auto simple et jeu d'échecs au hasard, après AlphaGo zéro rapidement que le niveau humain, non seulement cela, il a également 100: score parfait de 0 AlphaGo a battu la version précédemment annoncée de « Maître ».

Avec le nouveau mode d'apprentissage de renforcement (apprentissage par renforcement), AlphaGo Zéro vraiment « Autodidacte ». Les départs ensemble du système AI avec un réseau de neurones sur l'ignorance vont, grâce à un moteur de recherche puissant pour jouer aux échecs avec lui-même. Ce fut à l'origine un réseau de neurones en blanc et le nombre de jeux sur son propre bureau, l'ajustement plus précis et de prévoir la prochaine loi de mouvement, la maîtrise de go plus en plus haut.

Cette mise à niveau à nouveau par l'intégration du réseau de neurones et des algorithmes de recherche, pour finalement former un nouveau AlphaGo plus puissant zéro, et ne cesse de répéter le processus. Dans chaque version d'itération, la performance du système a une petite amélioration, les échecs auto de qualité sont également de plus en plus, créant ainsi un réseau de neurones plus précis, ce qui est sans précédent forte AlphaGo zéro.

Cette technologie par rapport à la version précédente de AlphaGo pour être plus puissant, car il est plus soumis aux limites de la connaissance humaine. Au lieu de cela, il peut être le plus fort dans le AlphaGo du monde où l'accès à l'apprentissage et à l'amélioration.

En outre, il dispose également d'une version antérieure des différences importantes dans d'autres domaines:

  • AlphaGo zéro en utilisant uniquement des pierres noires et blanches sur la carte comme entrée, la version précédente contient une petite quantité de artificielle fonction de réglage de AlphaGo.

  • AlphaGo Zéro utiliser uniquement un réseau de neurones. Les versions antérieures AlphaGo est utilise deux réseaux de neurones, « stratégie de réseau » permet de sélectionner la prochaine étape, « réseau de valeur » De chaque mouvement prédire le gagnant du jeu. Les deux parties à intégrer dans le zéro AlphaGo, de sorte qu'il est possible de former de manière plus efficace et d'évaluation.

  • AlphaGo zéro ni « enfant marche » (de déploiement) les autres programmes Go utilisés pour spéculer sur la méthode gagnante du jeu. Elle doit donc compter sur ses réseaux de neurones de haute qualité pour évaluer comment prendre toutes les mesures possibles pour finalement gagner.

Toutes ces différences contribueront à améliorer les performances du système et de le rendre plus polyvalent. Mais le noyau est d'améliorer l'algorithme rend plus robuste et plus efficace du système.

Figure Shu grâce aux algorithmes double d'optimisation et le matériel, l'efficacité AlphaGo a été une mise à niveau sans précédent

après seulement trois jours Après l'auto-formation, AlphaGo zéro pour battre facilement cette version AlphaGo et Lee bataille Se-dol, mais 100 jeux sans un duel de défaite. mais après  40 jours Après l'auto-formation, AlphaGo Zéro est devenu plus fort, et battre la version de AlphaGo, à la fois « Master » lorsque le numéro un mondial est perdu à Jie Ke Maître.

Figure Shu ELO système de notation (notes ELO), est une autorité reconnue au niveau d'échecs d'aujourd'hui la méthode d'évaluation

Dans le document sur DeepMind dernier, mais aussi ses principes techniques et mécanismes d'apprentissage à faire une analyse approfondie de AlphaGo zéro. Voici les points saillants du papier:

Carte | « ou ne pas utiliser la connaissance humaine à maîtriser le Go"

AI un champ objectif à long terme est d'être dans un domaine difficile, du « blanc » (Tabula Rasa) pour commencer à apprendre jusqu'à ce que l'algorithme au-delà de la capacité humaine.

L'année dernière, AlphaGo est devenu le premier à vaincre le champion du monde humain sur le logiciel Go. AlphaGo arbre de recherche peut analyser la situation, et en utilisant la sélection de réseau de neurones en profondeur toutes les étapes du Lazes. Ces réseaux de neurones à l'aide d'échecs d'apprentissage supervisé la manière d'un expert humain, et l'utilisation de l'apprentissage et de la formation renforcée en soi sur les échecs. Nous vous proposons un apprentissage de renfort à base pure, il ne nécessite aucune connaissance des algorithmes et des données que toute aide humaine ou une règle dans le présent document. AlphaGo est devenu son propre maître: un réseau de neurones peut être formé pour prédire AlphaGo leur chaque étape, même le vainqueur de chaque match.

Le réseau de neurones peut améliorer la force de l'arbre de recherche, ce qui Lazi choisir une meilleure qualité, ainsi que la prochaine série de jeux en soi des joueurs plus forts. De la « blanc » a commencé, notre nouveau programme --AlphaGo zéro au-delà de la performance humaine à atteindre: Pour obtenir un 100 incroyable victoire 2-0 victoire sur la race humaine dans le champion d'échecs AlphaGo précédemment publié.

AlphaGo design original avec deux réseaux de neurones profonds: un calcul de la probabilité de chaque étape Lazi réseau de réflexion, et la valeur d'un après chaque étape de calcul de la situation de réseau. Ces deux réseaux de neurones sont Monte Carlo Arbre Recherche (SCTM) combinés ensemble: stratégies rétrécissent le réseau de recherche est une forte probabilité de Lazes, avec la valeur du réseau pour déterminer la situation de chaque arbre de recherche. La victoire sur Lee Se-dol cette version AlphaGo Il est cette conception.

Figure Shu AlphaGo Versus Lee Se-dol

AlphaGo Zero est la nouvelle version de l'original a un certain nombre de différences importantes. Tout d'abord, il est d'un état aléatoire Lazes, les échecs et amélioré entièrement grâce à l'auto-apprentissage formé. En second lieu, il est fonction de l'entrée que des pierres noires et blanches sur la carte. Encore une fois, il utilise un réseau de neurones, plutôt que la stratégie et la valeur de ces deux réseaux de neurones. En fin de compte, il utilise la recherche d'arbres plus facile, ne compter que sur ce seul réseau de neurones pour juger de la situation et Lazes, sans enfant à aller vite Monte Carlo (Monte Carlo Rollout).

En termes simples, les réseaux de neurones AlphaGo zéro sera la prochaine étape de la possibilité de la première liste, puis choisissez la solution optimale dans ces possibilités en effectuant Monte Carlo arbre Recherche (SCTM). Le résultat du calcul par le réseau neuronal et la comparaison des SCTM résultats filtrés, puis l'inverse du réseau neuronal est ajusté paramètres optimisés de telle sorte que l'erreur entre le réseau neuronal et MCTS plus petites. Lorsque le prochain tour des jeux eux-mêmes, le réseau de neurones aura une version améliorée des paramètres. En répétant constamment ce processus, après des millions d'optimisation, et finalement créer un puissant AlphaGo zéro.

AlphaGo mécanisme d'auto-apprentissage renfort aux échecs

Après l'équipe DeepMind de déterminer les principes techniques de cet apprentissage de renforcement, et l'appliquer sur la deuxième version de AlphaGo Zero, cette version dispose d'un réseau de neurones plus grandes et plus le temps de formation. A partir de l'enfant marche aléatoire « de désemparés », la formation n'a duré environ 40 jours.

Tout au long du processus de formation, AlphaGo Zéro a effectué un total de 29 millions de fois auto échecs, a paramètres 3,1 millions de fois la mise à niveau. Par la suite, l'équipe DeepMind maintenant en interne AlphaGo Zéro a joué l'évaluation de la force, ont été utilisés pour surmonter la version AlphaGo Fan Hui et Lee Se-dol, et à 60 en Janvier 20170 victoire en ligne des joueurs humains les plus forts AlphaGo Maître, venez avec AlphaGo Zéro échecs.

Tout au long du processus d'évaluation de la profondeur de la pensée, chaque version AlphaGo sont à seulement 5 secondes pour « penser » la prochaine loi de déplacement. Dans laquelle AlphaGo Zéro AlphaGo maître et équipé de seulement quatre TPU (tenseur unité de traitement), qui surmontent précédemment et Fan Hui Lee Se-dol de AlphaGo respectivement 176 et 48 TPU.

Le résultat final est que, pendant deux heures et la bataille de Conseil AlphaGoZero AlphaGo Maître 100 initial, la victoire première à la seconde de 89:11.

Figure Shu classement des échecs ELO AlphaGo passé trois jours au-delà de la version AlphaGo Lee Se-dol pendant 21 jours au-delà AlphaGo Maître.

système de classement ELO (notes ELO) est une mesure créée par la mesure physicien américano-hongrois Elo du jeu concurrentiel relatif du niveau de compétence de la méthode des joueurs, la méthode est une autorité reconnue sur l'évaluation actuelle du niveau d'échecs, il est largement utilisé échecs, dames, football et autres sports, ainsi que de nombreux jeux en ligne et de l'industrie des jeux électroniques. Dans le processus de développement dans AlphaGo, le changement de classement Elo la Visualize AlphaGo la rapidité devenir forte.

Dans les dizaines de millions de système de jeu AlphaGo pk AlphaGo à partir de zéro et d'apprendre progressivement le jeu de Go, et savoir humain depuis des milliers d'années dans quelques jours. En outre, AlphaGo Zéro a également découvert que de nouvelles connaissances peuvent développer des stratégies et des innovations non conventionnelles, et même au-delà de son premier match avec Lee Se-dol et Ke Jie a joué dans un mouvement de surprise.

AlphaGo ces moments de créativité, nous avons confiance dans l'avenir: artificiel Smart deviendra plus élevé que la créativité de l'existence humaine, et pour nous aider à résoudre certains des plus importants défis auxquels fait face l'humanité.

Bien qu'il soit encore dans les premiers stades de cette vision, mais AlphaGo Zero est une étape clé pour atteindre cet objectif. Si une technique similaire peut être appliquée à d'autres problèmes structurels tels que le repliement des protéines, de réduire la consommation d'énergie ou de trouver un nouveau matériau révolutionnaire, qui a une grande percée potentielle dans un impact positif sur la société.

« Pharmaceutical Track » pas d'hiver, nous prévoyons les huit thèmes d'investissement pharmaceutiques 2019 | 36 Krypton nouvelles pharmacothérapies série
Précédent
Seulement 360 pourrait tomber sur le riz rouge 5 Plus, nouveau Titans mille Yuan écran plein de nouveau
Prochain
Accro à « dégriser » ne peuvent pas se dépêtrer, l'ancien ingénieur Tesla est allé jusqu'à vendre la démission gueule de bois de la drogue
Donnez-vous 10 millions de dollars, de sorte que vous ne disposez pas d'un an téléphone mobile, vous?
Samsung « Les temps de phares, » a continué à tomber, que nous OPPO et in vivo des modèles d'explosion moins cher
Même Surchauffe tous les autres dans le monde? L'un plus grand événement stands! Utilisateur: auto-infligée
Cet écran permet un PDG fier interne complet, a commencé à vendre l'éloge de jusqu'à 99%
Tide de ne pas reconnaître! Bosideng domestiques tout nouveau rouge atelier Chengdu
A plein téléphones Android combien de temps? Samsung vous dire ceci: aussi longtemps que dix minutes
chaîne OTC en vrac secret, l'agence en un seul « jour dans cent mille. »
799 riz rouge 5 version basse vient, ne pas tambour parti étudiant portefeuille béni
Plus « manteau » peint « antigel crème », l'usine de Wuhan cet hiver
Ces produits féminins vont « aller » pour voir comment sauver la femme d'écorce 355 millions de bananes
officiel Samsung S9 Rendus belle, laisser beaucoup de MIX3 de mil de pression