Baidu maintenant utiliser Google AlphaGo, résoudre un problème plus difficile que le Go

Xiao contrôle à partir du bas de la non-Temple encastré

rapports Qubit | Numéro public QbitAI

En 9102, les restes humains rappellent jamais être roulées Go feat de terreur AlphaGo.

Mais il y a aussi la voix de désapprobation: que les échecs AI, puis pire encore un ah athlète!

Baidu a dit: Vous avez tort, il est un mathématicien.

Baidu Silicon Valley AI lab les étudiants, juste en utilisant cet algorithme Google DeepMind Go, Go résoudre beaucoup plus complexe qu'un problème mathématique.

Afin de rééduquer l'algorithme, Baidu a 300 graphiques 1080Ti et 2080Ti.

Ils résolvent le problème, appelé « problème de coloration de graphe », aussi appelé problème de coloration en théorie des graphes appartiennent à l'autre jour pour laisser l'équipe Chine Olympiade mathématique annihilée. Il est l'un des plus fameux problème complet NP-.

En termes simples, il est à utiliser comme peu de couleurs aux sommets d'un tableau de couleurs pour faire en sorte que la couleur du sommet voisin ne se répète pas.

10 sommets de la version est simple:

La version complexe ...... tant que suffisamment de pointe, chaque minute, de sorte que les mathématiciens humains ne peuvent pas commencer, s'il y a 512 sommets, la complexité de cette question seront des centaines d'ordres de grandeur plus élevé que Go.

Dans ce problème mathématique, AlphaGo athlète exceptionnel, une carte de couleur peut être utilisé jusqu'à 10% de réduction.

A partir du théorème des quatre couleurs

Même si vous « la théorie des graphes », « problème de coloration », ces mots sont un peu étrange, vous devriez avoir entendu parler du « théorème des quatre couleurs. » Ceci est le premier par un ordinateur théorème mathématique aidé prouvé.

théorème des quatre couleurs nous dit que seulement quatre couleurs, nous pouvons faire la couleur de tous les pays voisins sur la carte de l'autre.

Ce problème coloration est en fait un plan, l'état peut être relation simplifiée entre les sommets adjacents pays peuvent être simplifiées comme une ligne de liaison entre les sommets. Pour le plan, le nombre minimum de couleurs k égal à un peu?

Historiquement mathématiciens ont été théorèmes prouvé aquarellée (k = 5), mais parce que l'opération est trop importante, pour réduire encore le nombre de couleurs ou quatre (k = 4) retard Shique ne peut pas être résolu, repose en fin de compte sur l'ordinateur dans les années 1970 pour compléter la preuve.

En général, nous pouvons utiliser algorithme glouton Pour résoudre ce problème, l'idée de base est: d'explorer l'utilisation d'une couleur autant de points que la couleur, lors de l'étape précédente est terminée, le deuxième point le plus possible d'une autre couleur, puis a ajouté un troisième espèces, quatrième et ainsi de suite, jusqu'à ce que la carte entière remplie.

ou est Profondeur premier algorithme de recherche Une première étape pour la coloration de l'image, si des points adjacents rencontrés de la même couleur sur le dos, et le dos une méthode de coloration jusqu'à ce que le problème soit résolu.

monde Go est plus complexe que

Si le nombre de sommets figure relativement faible, ce qui précède deux méthodes est également possible, mais avec l'augmentation du nombre de sommets, les limites des deux algorithmes ci-dessus est exposée à l'extérieur.

 algorithme glouton comparatif avec des solutions optimales et coloration

chute d'algorithme glouton en solution optimale locale, et la quantité de profondeur premier calcul algorithme de recherche deviendront de plus en plus grande, qui est tout à fait réalisable.

La complexité du problème de coloration graphique avec l'augmentation du nombre de sommets et une croissance rapide. Lorsque le nombre atteint un haut 512, qui peut avoir atteint le nombre d'Etat a atteint 10 ^ 790, 460 ^ 10 aller bien au-delà, bien sûr, le nombre de particules univers Gengshi Bi beaucoup 10 ^ 80.

Même si l'état de taille moyenne figure bien au-dessus du nombre de dames, si le nombre de sommets pour atteindre 10 millions, ce sera une complexité étonnante, l'équivalent de 0458300001 plus tard.

De plus il y a un autre problème de coloration dimension complexe, l'algorithme Go peut être répété sur le même test avec une carte, et les sommets même si la figure même, étant donné que les points de connexion ne sont pas du même côté de la structure ne sont pas identiques.

Inspiré par le Go

Ces questions plus complexes de l'algorithme de formation et d'inférence présente un grand défi. Le AlphaGo a connu un grand succès dans la résolution de ces problèmes complexes, les chercheurs ont également naturellement penser à l'utiliser pour résoudre le problème de coloration graphique.

Pour ce type de problème, nous utilisons généralement algorithme de recherche heuristiques (Recherche Heuristique), une recherche est effectuée dans l'espace d'état de la recherche de chaque emplacement d'évaluation, la meilleure position, puis la recherche de cet endroit jusqu'à ce que la cible.

utilisation AlphaGo Monte-Carlo Arbre Recherche (SCTM) est utilisé dans un algorithme de recherche heuristique.

 algorithme de recherche Monte Carlo est une vue schématique d'arbre: Sélectionnez le chemin, spanning tree, réalisée par une simulation de réseau de neurones, la propagation de retour de résultat final, noeud de chemin mis à jour.

AlphaGo échecs précisément par cette méthode, calculer la probabilité de gagner le plus grand point actuel du conseil d'administration jusqu'à la victoire à.

problème coloration graphique aller et il y a des similitudes, il est chaque mouvement est de remplir la couleur du point suivant. Allez aux échecs, et il peut être utilisé comme apprentissage par renforcement Pour résoudre le problème, la différence est la récompense.

Dans le problème de coloration graphique, la solution la plus évidente est de récompenser la couleur, le type d'utilisation, le mieux. Aux échecs et Go, le prix est le résultat de l'issue du jeu.

Dans le jeu d'échecs, que l'algorithme évolutif dans l'auto d'échecs est une chose très naturelle, de sorte que les performances des meilleurs algorithmes d'apprentissage avec leur confrontation, ce qui est une version améliorée de AlphaGo AlphaGo zéro .

AlphaGo Zero no échecs d'apprentissage humain, il est juste à comprendre les règles de Go, s'améliorer constamment dans les échecs, Google a pris seulement 21 jours, que cette version mise à jour base 0 de Ke Jie a battu 5-0 la victoire sur la version maître AlphaGo.

Lorsque AlphaGo a évolué à l'auto-libération AlphaGo zéro, il est plus approprié pour le graphique problème coloration, problème de coloration, car il n'y a pas soi-disant « échecs humain » peut être appris.

Dans le genre de problème coloration graphique, les chercheurs ont demandé AlphaGo zéro avec d'autres algorithmes jeu, avec peu pour voir qui est le genre de couleur, c'est l'algorithme de mécanisme incitatif.

principe

Et AlphaGo comme algorithme de coloration graphique est également Réseau stratégique (p-réseau) et le réseau de valeur (v-réseau), p est la probabilité d'un certain sommet peint couleur, v est la probabilité que le résultat du meilleur algorithme est inférieur au nombre de couleurs avant la finale.

Dans le jeu de Go, la probabilité p représente la position des Lazes, v représentent la probabilité finale de gagner.

Pour cette raison, les chercheurs ont conçu un Réseau rapide Shading (FastColorNet).

Pour ce réseau, les conditions suivantes:

1, l'évolutivité (Extensibilité): O linéaire (V) linéaire ou logarithmique O (E + VlogV) complexité en temps, il peut également être utilisé pour veiller à ce qu'un motif plus grand (par exemple, 10 millions de sommets).

2, un contexte graphique complet (Full Graph contexte): différentes stratégies FIG ont coloration différente, les informations de réseau nécessaires structure graphique.

Nous définissons la perte du réseau sont les suivants:

représente le numéro de pas de marche, z représente le nombre de couleurs utilisées actuellement.

La figure est l'architecture FastColorNet. Son entrée se compose de deux parties: contexte problème (Contexte problème) et contexte de couleur possible (Contexte de couleur possible).

problème de contexte (contexte du problème) est juste le sommet de coloration selon le calendrier suivant pour lequel des vertex shader. Il est la tâche du début et de fin sont nuls. contexte des problèmes comprend le nombre de sommets est un paramètre super est réglé sur 8 dans l'expérience.

contexte de couleur possible (contexte de couleurs possibles) est au-dessus de l'ensemble de sommets peut être utilisé pour chaque couleur. Il est également un super ensemble de paramètres à 4 dans l'expérience.

Lorsque deux ou plusieurs contextes d'entrer dans la stratégie de réseau et réseau de valeur.

Stratégie réseau En utilisant le contexte global graphique (contexte global du graphique), qui est chargé de calculer la probabilité de chaque couleur est associée au sommet sélectionné.

Comme le processus de remplissage, le nombre de couleurs augmentera progressivement. Afin de soutenir le nombre de changements de couleur, il sera le premier traitement indépendant pour chaque couleur, ce qui a des scores de non normalisés, puis traitées par le score modèle seq2seq, qui sera considérée comme dépendante des autres couleurs. Les résultats d'exploitation finale par softmax probabilité normalisée de couleur de remplissage.

Stratégie en utilisant la relation locale entre les noeuds du réseau avec la même couleur, pour améliorer la précision, tout en réduisant la complexité du temps de calcul est plus grande figure.

valeur réseau Responsable du problème de coloration du résultat final prédit à partir des données d'entrée. problème de contexte (contexte du problème) dans le vertex shader et stockées séquentiellement dans la séquence correspondante. modèle de processus Seq2seq en utilisant la séquence, cette séquence de contexte graphique (contexte graphique) sont combinés, et les transmet à la couche RELU entièrement connecté, le résultat final d'entrée SoftMax, la victoire de probabilité calculée, défaite, ou tirage.

résultat

Les chercheurs ont utilisé un processus d'apprentissage par renforcement FastColorNet de graphe de train problèmes de coloration, des graphiques dont la taille varie de 32 à 10 millions de sommets sur les sommets.

La figure montre comment le nombre de couleurs avec le nombre de sommets figure la croissance et la croissance.

Testé sur un 32K à 16M sommets FIG, ensemble de formation FastColor utilisé dans la couleur a augmenté de 5% à 10% plus élevé que l'algorithme de recherche heuristique classique. En dépit de moins dans le jeu de test, mais la performance est également plus élevé que le précédent algorithme 1% -2%.

Tout en soulevant la proportion ne semble pas élevé, mais cet algorithme a montré le potentiel de résoudre ces problèmes. A Netizen a commenté sur Twitter: Cet article complexité linéaire O (n) pour résoudre le problème NP-complet.

Documents Adresse:

https://arxiv.org/abs/1902.10162

- complet  -

recrutement sincère

Qubits recrutent éditeur / journaliste, basé à Zhongguancun de Beijing. Nous attendons de talent, des étudiants enthousiastes de nous rejoindre! Détails, s'il vous plaît interface de dialogue qubit numéro public (QbitAI), réponse mot "recrutement".

qubit QbitAI · manchettes sur la signature de

' « suivre les nouvelles technologies AI dynamiques et de produits
bataille de basket-ball Jordan affecte la situation de guerre, la Coupe du monde tirage mystère gardé, le travail des examens Yao Ying
Précédent
objectif de style Barcelone Yayunnanzu maintenant! Ils taquinent le mur avec une matrice de sept métaux Chuandang pause!
Prochain
Le nouveau roi du héros de la gloire juste sur la ligne a été joueurs fous Tucao: ancien dieu de la guerre, il l'a fait en avion emballé?
Jeremy Lin première formation embarrassé, voler des vêtements mauvais numéro de base, les Raptors augmentera la vitesse
NBA dans le sprint, l'attention des médias US Aspect six, trois dur combat dans les séries éliminatoires MVP James Wong
La moitié à cinq objectifs maltraitent au Timor oriental, U23 football Jeux asiatiques début parfait
Des centaines de millions de dollars dépensés dans le chef-d'uvre de fabricant de jeu R & D, tout en vente à moitié prix le lendemain, le bombardement des joueurs
Zhu Fangyu reproduire QI ultra-haute, digne des meilleurs chefs de la direction, les variables de réaction chimique dans le Guangdong neuf couronne
Plus de 20 jours les ventes de plus de 12 millions! chef-d'oeuvre conquête complète des étrangers de Nintendo, les joueurs jouent fou!
Andrew Ng livre, "formation d'apprentissage machine Cheats" six points récapitulent | ressources
Le compte à rebours de la femme a été éliminé U20 trop mal, mais l'étoile montante de 17 ans est devenu le plus gros gains
Les médias étrangers mieux que le fonctionnaire a déclaré plus tôt? Ma Shang Pourquoi Guangdong, le style superstar de jeu ne fonctionne pas
Kai-Ming Ho performance au-delà Mask R-CNN! Hua Keshuo Soo Sen nouvelle méthode de segmentation d'image open source
Droit d'auteur « trou noir » brûler les caractères chinois, en utilisant le noir Microsoft élégant, avait une violation? activiste de la police fondateur était Tucao