capacit� de g�n�ralisation de combinaison est pauvre? Essayez d'apprendre la profondeur du solveur combin� d'int�gration

Auteur | Marin Vlastelica

Compile | dix, ann�es

� l'heure actuelle, il y a un ordinateur dans ce sujet tr�s important dans deux directions: l'un est l'algorithme d'optimisation discr�te classique - les algorithmes de graphes, tels que solveur, solveur de programmation entiers, l'autre est la hausse au cours des derni�res ann�es d'apprentissage en profondeur, ce qui rend ax�e sur les donn�es extraction de caract�ristiques et de bout en bout l'architecture et la conception flexible possible.

Est-il possible de combiner avec une combinaison d'apprentissage en profondeur?

th�se de projecteur IPSC 2020 � Diff�renciation des Blackbox combinatoires solveurs � a poursuivi cette question.

Dans le document, les auteurs tentent de combiner de fa�on transparente solveur dans la profondeur du r�seau de neurones, et Warcraft probl�me de chemin le plus court, probl�me de correspondance parfaite minimum de perte et les probl�mes de voyageur de commerce ont �t� test�s. Les r�sultats des tests montrent que le solveur m�thode de combinaison + �tude approfondie pour obtenir de meilleurs r�sultats que les m�thodes traditionnelles.

En outre, comme Marin Vlastelica un document sur l'auteur d�crit moyenne l'id�e principale de ce document, AI Technology Review ont �t� compil� la suppression de ce qui suit est le texte original profiter ~

La recherche montre que l'�tat de l'apprentissage de la machine, l'apprentissage en profondeur des m�thodes modernes de base intelligence artificielle et les m�thodes traditionnelles ne incoh�rences existent. Extraction de caract�ristiques �tude approfondie en vision par ordinateur, et de renforcer le domaine de l'apprentissage, le traitement du langage naturel a des fonctionnalit�s puissantes. N�anmoins, dans sa combinaison G�n�ralisation (g�n�ralisation combinatoire) a �t� critiqu�e par les chercheurs.

Par exemple, une carte en entr�e pour pr�dire le plus court chemin planification itin�raire le plus rapide sur Google Maps; (Min, Max) probl�me -Couper, correspondant parfaitement � la perte minimum (Matching parfait co�t minimum), le probl�me du voyageur de commerce, la correspondance graphique probl�mes et ainsi de suite.

Si la solution � chaque question individuellement, nous avons de nombreux outils � choisir: vous pouvez utiliser le langage C, vous pouvez utiliser solveur MIP plus g�n�rique (programmation mixte en nombres entiers). Bien s�r solveur espace d'entr�e pour examiner la question, apr�s tout, il faut une entr�e structur�e bien d�finie.

Bien que la combinaison est devenue le domaine de la recherche sur l'apprentissage de la machine attention Point, mais les efforts pour �tudier ces probl�mes ne suffisent pas. Cela ne signifie pas que les chercheurs font attention � ne pas � une combinaison de probl�me g�n�ralis�, apr�s tout, il est toujours l'un des principaux d�fis des syst�mes intelligents.

Id�alement, les chercheurs peuvent bout � bout, l'extraction riche en fonctionnalit�s et efficace gr�ce � une forte approximation de la fonction (tel que les r�seaux de neurones) solveur composition ensemble. C'est exactement la th�se � La diff�renciation des Blackbox combinatoires solveurs � dans atteint. En outre, cet article a re�u les meilleurs scores d'examen, et s�lectionn� pour les documents de projecteur IPSC 2020.

La partie suivante de l'article, et non pas dans une tentative d'am�liorer solveur, mais plut�t d'approximation de la fonction et utilis�e conjointement avec solveurs existants.

Si l'on suppose que le solveur bo�te noire (solveur Blackbox) est un outil facile Ins�rer �tude approfondie de la structure du module.

gradient de solveur de bo�te noire

En continu � la mise en correspondance entre le mode de sortie discret en tant que r�solveur, en outre, peut �tre un apport continu de la partie droite de la figure poids sortie discr�te peut �tre le plus court chemin, l'ar�te s�lectionn�e sur la Fig. La carte est caract�ris� d�finie comme suit

Solver peut r�duire au minimum une partie de la fonction de perte c (, y), qui peut �tre une fonction de perte de la longueur du trajet. Ce probl�me d'optimisation est repr�sent� par la formule suivante:

Dans la formule ci-dessus, w est la sortie du r�seau de neurones, l'apprentissage du r�seau de neurones est repr�sent� par certains, par exemple, peut �tre un poids lourd c�t� de vecteur � la Fig. Dans le probl�me du plus court chemin, probl�me du voyageur de commerce, peut �tre utilis� pour faire une bonne description du probl�me.

Le probl�me cl� de l'optimisation est de minimiser la fonction de perte, la question est maintenant fonction de perte de piecewise est exprim�, qu'il ya un point de discontinuit� de saut. Cela signifie que [om�ga] repr�sente le gradient de la fonction 0 est presque partout, et un point de discontinuit� de saut, le gradient est pas encore d�fini.

� l'heure actuelle, l'utilisation de la m�thode du solveur de relaxation (relaxation solveur) peut r�soudre ce probl�me, mais va perdre optimalit�. Article propose une m�thode ne modifie pas le solveur d'optimalit�. � savoir, pour d�finir le segment de l'interpolation affine fonction objectif initial, une interpolation par un contr�le suppl�mentaire sur le param�tre , comme illustr� ci-dessous:

Comme indiqu� ci-dessus la partie noire, une valeur de fonction de l'image d'origine est une fonction donn�e, une partie orange est une valeur d�termin�e par interpolation. La valeur minimale ne change pas.

Bien s�r, le domaine f est multidimensionnel. Ainsi, pour la m�me valeur de f, il peut y avoir une pluralit� correspondante de w. Qui est mis en est envoy� � un poly�dre, le f de sortie peut avoir la m�me valeur. Bien entendu, il y a beaucoup de ces domaines f poly�dre. Super param�tre de mani�re efficace compens�e par l'entr�e poly�dre solveur perturbation. D�finit un interpolateur cible affines par morceaux de d�calage poly�dre g fronti�re avec les limites d'origine.

Comme on le voit ci-dessous, la valeur f (y2) est d�plac�e vers une des valeurs limites poly�driques f (y1) �. Cela explique aussi pourquoi inclin� visuellement plus � utiliser le param�tre ultra-grand . Le d�calage doit �tre assez grand pour obtenir un gradient utile interpolateur g

Tout d'abord, d�finir une solution d'optimisation des perturbations au probl�me, dans lequel les param�tres de perturbation sont command�s par ultra [lambda], la formule suivante:

Si elle est fonction assum�e perte c (, y) est le produit scalaire de y et , la cible d'interpolation peut �tre d�finie:

fonction de perte de lin�arit� est moins restrictive que, � premi�re vue. Par exemple, du c�t� de la s�lection, la fonction de perte de poids � consid�rer et tous les poids des ar�tes, des exemples sp�cifiques en r�f�rence au probl�me du voyageur de commerce et le probl�me du plus court chemin.

Le param�tre ultra-interpolation de change que les changements d�crits ci-dessus � la Fig.

algorithme

En utilisant cette m�thode, le gradient peut �tre calcul� en modifiant la propagation inverse de mani�re � �liminer les incoh�rences entre la combinaison classique de solveur et l'apprentissage en profondeur.

def avant (CTX, w_): "" "CTX: Contexte pour w_ passe en arri�re: poids de probl�mes estim�s" "" y_ = solveur (w_) # Enregistrer contexte pour passer en arri�re ctx.w_ = w_ ctx.y_ = y_ retour y_

propagation vers l'avant, � condition seulement fait ensuite passer un solveur enrobage , la solution le long de. De plus, nous enregistrons et la propagation avant de solution calcul�e.

def vers l'arri�re (ctx, grad): "" "ctx: Contexte de la profondeur" "" w = ctx.w_ + EMT * grad # Calculer le poids perturb� y_lmda = r�solveur (w) return - (ctx.y_ - y_lmda) / EMT

Apr�s le transfert, la perturbation du gradient ultra de r�tropropagation du param�tre [omega], et en prenant une diff�rence entre la pr�c�dente et la perturbation Solutions

Calcul de calcul d'interpolation gradient de t�te d�pend r�solveur, en t�te deux fois, un r�solveur est appel� processus de propagation vers l'avant, et une fois apr�s le solveur d'appel vers le processus de propagation.

exp�rience

Pour valider cette m�thode, les t�ches de conception de synth�se avec un certain degr� de complexit� pour la v�rification. En outre, en raison des m�thodes simples d'apprentissage supervis� ne peuvent pas �tre g�n�ralis�s aux donn�es n'ont pas vu, donc dans la t�che suivante, cette m�thode a prouv� la n�cessit� d'une combinaison de g�n�ralisation.

Pour le plus court chemin de probl�me, les t�ches de test Warcraft, y compris la formation mis probl�me de chemin le plus court � dans Warcraft II � carte, la carte correspondant aux objectifs de la mission. Plus pr�cis�ment, l'ensemble de test contient l'inconnu � dans Warcraft II � carte. La carte est lui-m�me cod� en tant que grille K * K. entr�e de r�seau neuronal convolutif est la carte, la carte est le sommet de la perte de sortie, puis la perte d'un solveur d'entr�e. Enfin, r�solveur (l'algorithme de Dijkstra du trajet) de sortie pour indiquer le plus court forme d'une matrice de trajectoire sur une carte.

Au d�but de la formation, le r�seau de neurones ne sait pas comment affecter la perte correcte des tuiles de carte, mais une combinaison de solveur + apprentissage en profondeur peut obtenir le meilleur co�t, le droit de trouver le chemin le plus court. L'histogramme montre la suite, par rapport aux m�thodes traditionnelles de formation ResNet supervision, la g�n�ralisation de la combinaison de cette m�thode est encore mieux.

Le probl�me de correspondance parfaite minimum de perte, l'ensemble de donn�es utilis� est MNIST, les objectifs de la mission est de minimiser la perte de chiffres de sortie de MNIST maillage parfaitement adapt�. peuvent �tre inclus Plus pr�cis�ment, sur cette question, choisir son camp devrait faire tous les sommets exactement une fois, et permet �galement la perte et minimale. En outre, chaque cellule de la grille comporte un certain nombre de MNIST qui est un noeud dans le graphe est pourvu directions verticale et horizontale des points adjacents. Enfin, la perte est d�termin�e par les c�t�s verticaux de deux chiffres � droite vers le bas ou horizontalement.

Le vecteur d'adaptation de sortie indiquant l'ar�te s�lectionn�e. perte d�sadaptation sur la droite est de 348 (46 + 12 horizontal, vertical et + 45 + 2740 + 67 + 78 + 33).

Sur ce tableau de performance ci-dessous, nous pouvons voir clairement le solveur de match parfait r�el embarqu� dans un r�seau de neurones peut obtenir de meilleurs r�sultats.

Dans le probl�me du voyageur de commerce, l'ensemble des donn�es de formation est un indicateur (c.-�-la repr�sentation d'origine) et les itin�raires de voyage optimales de capital correspondant. Sortie r�seau de neurones est la capitale des meilleurs itin�raires de voyage de chaque pays. Dans le processus de formation du r�seau de neurones, la position la plus importante du capital apprentissage repr�sentation implicite. Exemples de formation K comprenant des pays comme indiqu� ci-dessous.

Les drapeaux de chacun des pays convolution d'entr�e et de sortie de neurones r�seau de r�seau de voies de d�placement optimal.

Dans l'animation ci-dessous, vous pouvez �galement voir l'emplacement des capitales lors de la formation du r�seau de neurones dans le monde entier.

Tout d'abord, l'emplacement est distribu� de fa�on al�atoire, mais apr�s la formation du r�seau de neurones apprennent non seulement les itin�raires TSP de sortie correcte, et l'apprentissage une repr�sentation ad�quate de la production, qui est correct coordonn�es 3D de chaque capital. Il est int�ressant de noter que ce n'est en utilisant une perte de distance de Hamming dans la supervision du processus de formation, et l'utilisation de Gurobi le MIP sur la sortie du r�seau atteint.

r�sum�

En fait, sous certaines hypoth�ses, il a fait ses preuves solveur fonction de perte, le gradient peut se propager par une combinaison de solveur de bo�te noire. Cette combinaison permet aux capacit�s de g�n�ralisation des m�thodes traditionnelles de mise en uvre de l'architecture de r�seau de neurones supervis� norme.

+ Etude approfondie d'une combinaison de m�thodes d'apprentissage solveur peut �tre largement utilis� dans un certain nombre de probl�mes pratiques doivent �tre le raisonnement combin�. Cependant, les mensonges de probl�me dans l'hypoth�se que la perte de solveur lin�aire Dans cette hypoth�se, nous avons vraiment peut aller loin? Les priorit�s et les probl�mes � l'avenir est de savoir si nous pouvons apprendre une contrainte potentielle � une combinaison de probl�mes tels que des probl�mes combinatoires MIP.

r�f�rences

Vlastelica, Marin, et al "Diff�renciation des Blackbox combinatoires solveurs" arXiv pr�publication arXiv :. 1912,02 175 �(2019). (Http://bit.ly/35IowfE)

Rolinek, Michal, et al "Metrics base Rank adaptif avec Blackbox Diff�renciation." ArXiv pr�publication arXiv :. 1912,03500 (2019) (

https: // towardsdatascience .com / La fusion-de-apprentissage et-profonde combinatoires-4d0112a74fa7

Route de la soie

Apprenez � conna�tre la Chine

capacit� de g�n�ralisation de combinaison est pauvre? Essayez d'apprendre la profondeur du solveur combin� d'int�gration

algorithme