Baidu maintenant utiliser Google AlphaGo, r�soudre un probl�me plus difficile que le Go

Xiao contr�le � partir du bas de la non-Temple encastr�

rapports Qubit | Num�ro public QbitAI

En 9102, les restes humains rappellent jamais �tre roul�es Go feat de terreur AlphaGo.

Mais il y a aussi la voix de d�sapprobation: que les �checs AI, puis pire encore un ah athl�te!

Baidu a dit: Vous avez tort, il est un math�maticien.

Baidu Silicon Valley AI lab les �tudiants, juste en utilisant cet algorithme Google DeepMind Go, Go r�soudre beaucoup plus complexe qu'un probl�me math�matique.

Afin de r��duquer l'algorithme, Baidu a 300 graphiques 1080Ti et 2080Ti.

Ils r�solvent le probl�me, appel� � probl�me de coloration de graphe �, aussi appel� probl�me de coloration en th�orie des graphes appartiennent � l'autre jour pour laisser l'�quipe Chine Olympiade math�matique annihil�e. Il est l'un des plus fameux probl�me complet NP-.

En termes simples, il est � utiliser comme peu de couleurs aux sommets d'un tableau de couleurs pour faire en sorte que la couleur du sommet voisin ne se r�p�te pas.

10 sommets de la version est simple:

La version complexe ...... tant que suffisamment de pointe, chaque minute, de sorte que les math�maticiens humains ne peuvent pas commencer, s'il y a 512 sommets, la complexit� de cette question seront des centaines d'ordres de grandeur plus �lev� que Go.

Dans ce probl�me math�matique, AlphaGo athl�te exceptionnel, une carte de couleur peut �tre utilis� jusqu'� 10% de r�duction.

A partir du th�or�me des quatre couleurs

M�me si vous � la th�orie des graphes �, � probl�me de coloration �, ces mots sont un peu �trange, vous devriez avoir entendu parler du � th�or�me des quatre couleurs. � Ceci est le premier par un ordinateur th�or�me math�matique aid� prouv�.

th�or�me des quatre couleurs nous dit que seulement quatre couleurs, nous pouvons faire la couleur de tous les pays voisins sur la carte de l'autre.

Ce probl�me coloration est en fait un plan, l'�tat peut �tre relation simplifi�e entre les sommets adjacents pays peuvent �tre simplifi�es comme une ligne de liaison entre les sommets. Pour le plan, le nombre minimum de couleurs k �gal � un peu?

Historiquement math�maticiens ont �t� th�or�mes prouv� aquarell�e (k = 5), mais parce que l'op�ration est trop importante, pour r�duire encore le nombre de couleurs ou quatre (k = 4) retard Shique ne peut pas �tre r�solu, repose en fin de compte sur l'ordinateur dans les ann�es 1970 pour compl�ter la preuve.

En g�n�ral, nous pouvons utiliser algorithme glouton Pour r�soudre ce probl�me, l'id�e de base est: d'explorer l'utilisation d'une couleur autant de points que la couleur, lors de l'�tape pr�c�dente est termin�e, le deuxi�me point le plus possible d'une autre couleur, puis a ajout� un troisi�me esp�ces, quatri�me et ainsi de suite, jusqu'� ce que la carte enti�re remplie.

ou est Profondeur premier algorithme de recherche Une premi�re �tape pour la coloration de l'image, si des points adjacents rencontr�s de la m�me couleur sur le dos, et le dos une m�thode de coloration jusqu'� ce que le probl�me soit r�solu.

monde Go est plus complexe que

Si le nombre de sommets figure relativement faible, ce qui pr�c�de deux m�thodes est �galement possible, mais avec l'augmentation du nombre de sommets, les limites des deux algorithmes ci-dessus est expos�e � l'ext�rieur.

�algorithme glouton comparatif avec des solutions optimales et coloration

chute d'algorithme glouton en solution optimale locale, et la quantit� de profondeur premier calcul algorithme de recherche deviendront de plus en plus grande, qui est tout � fait r�alisable.

La complexit� du probl�me de coloration graphique avec l'augmentation du nombre de sommets et une croissance rapide. Lorsque le nombre atteint un haut 512, qui peut avoir atteint le nombre d'Etat a atteint 10 ^ 790, 460 ^ 10 aller bien au-del�, bien s�r, le nombre de particules univers Gengshi Bi beaucoup 10 ^ 80.

M�me si l'�tat de taille moyenne figure bien au-dessus du nombre de dames, si le nombre de sommets pour atteindre 10 millions, ce sera une complexit� �tonnante, l'�quivalent de 0458300001 plus tard.

De plus il y a un autre probl�me de coloration dimension complexe, l'algorithme Go peut �tre r�p�t� sur le m�me test avec une carte, et les sommets m�me si la figure m�me, �tant donn� que les points de connexion ne sont pas du m�me c�t� de la structure ne sont pas identiques.

Inspir� par le Go

Ces questions plus complexes de l'algorithme de formation et d'inf�rence pr�sente un grand d�fi. Le AlphaGo a connu un grand succ�s dans la r�solution de ces probl�mes complexes, les chercheurs ont �galement naturellement penser � l'utiliser pour r�soudre le probl�me de coloration graphique.

Pour ce type de probl�me, nous utilisons g�n�ralement algorithme de recherche heuristiques (Recherche Heuristique), une recherche est effectu�e dans l'espace d'�tat de la recherche de chaque emplacement d'�valuation, la meilleure position, puis la recherche de cet endroit jusqu'� ce que la cible.

utilisation AlphaGo Monte-Carlo Arbre Recherche (SCTM) est utilis� dans un algorithme de recherche heuristique.

�algorithme de recherche Monte Carlo est une vue sch�matique d'arbre: S�lectionnez le chemin, spanning tree, r�alis�e par une simulation de r�seau de neurones, la propagation de retour de r�sultat final, noeud de chemin mis � jour.

AlphaGo �checs pr�cis�ment par cette m�thode, calculer la probabilit� de gagner le plus grand point actuel du conseil d'administration jusqu'� la victoire �.

probl�me coloration graphique aller et il y a des similitudes, il est chaque mouvement est de remplir la couleur du point suivant. Allez aux �checs, et il peut �tre utilis� comme apprentissage par renforcement Pour r�soudre le probl�me, la diff�rence est la r�compense.

Dans le probl�me de coloration graphique, la solution la plus �vidente est de r�compenser la couleur, le type d'utilisation, le mieux. Aux �checs et Go, le prix est le r�sultat de l'issue du jeu.

Dans le jeu d'�checs, que l'algorithme �volutif dans l'auto d'�checs est une chose tr�s naturelle, de sorte que les performances des meilleurs algorithmes d'apprentissage avec leur confrontation, ce qui est une version am�lior�e de AlphaGo AlphaGo z�ro .

AlphaGo Zero no �checs d'apprentissage humain, il est juste � comprendre les r�gles de Go, s'am�liorer constamment dans les �checs, Google a pris seulement 21 jours, que cette version mise � jour base 0 de Ke Jie a battu 5-0 la victoire sur la version ma�tre AlphaGo.

Lorsque AlphaGo a �volu� � l'auto-lib�ration AlphaGo z�ro, il est plus appropri� pour le graphique probl�me coloration, probl�me de coloration, car il n'y a pas soi-disant � �checs humain � peut �tre appris.

Dans le genre de probl�me coloration graphique, les chercheurs ont demand� AlphaGo z�ro avec d'autres algorithmes jeu, avec peu pour voir qui est le genre de couleur, c'est l'algorithme de m�canisme incitatif.

principe

Et AlphaGo comme algorithme de coloration graphique est �galement R�seau strat�gique (p-r�seau) et le r�seau de valeur (v-r�seau), p est la probabilit� d'un certain sommet peint couleur, v est la probabilit� que le r�sultat du meilleur algorithme est inf�rieur au nombre de couleurs avant la finale.

Dans le jeu de Go, la probabilit� p repr�sente la position des Lazes, v repr�sentent la probabilit� finale de gagner.

Pour cette raison, les chercheurs ont con�u un R�seau rapide Shading (FastColorNet).

Pour ce r�seau, les conditions suivantes:

1, l'�volutivit� (Extensibilit�): O lin�aire (V) lin�aire ou logarithmique O (E + VlogV) complexit� en temps, il peut �galement �tre utilis� pour veiller � ce qu'un motif plus grand (par exemple, 10 millions de sommets).

2, un contexte graphique complet (Full Graph contexte): diff�rentes strat�gies FIG ont coloration diff�rente, les informations de r�seau n�cessaires structure graphique.

Nous d�finissons la perte du r�seau sont les suivants:

repr�sente le num�ro de pas de marche, z repr�sente le nombre de couleurs utilis�es actuellement.

La figure est l'architecture FastColorNet. Son entr�e se compose de deux parties: contexte probl�me (Contexte probl�me) et contexte de couleur possible (Contexte de couleur possible).

probl�me de contexte (contexte du probl�me) est juste le sommet de coloration selon le calendrier suivant pour lequel des vertex shader. Il est la t�che du d�but et de fin sont nuls. contexte des probl�mes comprend le nombre de sommets est un param�tre super est r�gl� sur 8 dans l'exp�rience.

contexte de couleur possible (contexte de couleurs possibles) est au-dessus de l'ensemble de sommets peut �tre utilis� pour chaque couleur. Il est �galement un super ensemble de param�tres � 4 dans l'exp�rience.

Lorsque deux ou plusieurs contextes d'entrer dans la strat�gie de r�seau et r�seau de valeur.

Strat�gie r�seau En utilisant le contexte global graphique (contexte global du graphique), qui est charg� de calculer la probabilit� de chaque couleur est associ�e au sommet s�lectionn�.

Comme le processus de remplissage, le nombre de couleurs augmentera progressivement. Afin de soutenir le nombre de changements de couleur, il sera le premier traitement ind�pendant pour chaque couleur, ce qui a des scores de non normalis�s, puis trait�es par le score mod�le seq2seq, qui sera consid�r�e comme d�pendante des autres couleurs. Les r�sultats d'exploitation finale par softmax probabilit� normalis�e de couleur de remplissage.

Strat�gie en utilisant la relation locale entre les noeuds du r�seau avec la m�me couleur, pour am�liorer la pr�cision, tout en r�duisant la complexit� du temps de calcul est plus grande figure.

valeur r�seau Responsable du probl�me de coloration du r�sultat final pr�dit � partir des donn�es d'entr�e. probl�me de contexte (contexte du probl�me) dans le vertex shader et stock�es s�quentiellement dans la s�quence correspondante. mod�le de processus Seq2seq en utilisant la s�quence, cette s�quence de contexte graphique (contexte graphique) sont combin�s, et les transmet � la couche RELU enti�rement connect�, le r�sultat final d'entr�e SoftMax, la victoire de probabilit� calcul�e, d�faite, ou tirage.

r�sultat

Les chercheurs ont utilis� un processus d'apprentissage par renforcement FastColorNet de graphe de train probl�mes de coloration, des graphiques dont la taille varie de 32 � 10 millions de sommets sur les sommets.

La figure montre comment le nombre de couleurs avec le nombre de sommets figure la croissance et la croissance.

Test� sur un 32K � 16M sommets FIG, ensemble de formation FastColor utilis� dans la couleur a augment� de 5% � 10% plus �lev� que l'algorithme de recherche heuristique classique. En d�pit de moins dans le jeu de test, mais la performance est �galement plus �lev� que le pr�c�dent algorithme 1% -2%.

Tout en soulevant la proportion ne semble pas �lev�, mais cet algorithme a montr� le potentiel de r�soudre ces probl�mes. A Netizen a comment� sur Twitter: Cet article complexit� lin�aire O (n) pour r�soudre le probl�me NP-complet.

Documents Adresse:

https://arxiv.org/abs/1902.10162

- complet �-

recrutement sinc�re

Qubits recrutent �diteur / journaliste, bas� � Zhongguancun de Beijing. Nous attendons de talent, des �tudiants enthousiastes de nous rejoindre! D�tails, s'il vous pla�t interface de dialogue qubit num�ro public (QbitAI), r�ponse mot "recrutement".

qubit QbitAI � manchettes sur la signature de

' � suivre les nouvelles technologies AI dynamiques et de produits

Route de la soie

Apprenez � conna�tre la Chine

Baidu maintenant utiliser Google AlphaGo, r�soudre un probl�me plus difficile que le Go