capacité de généralisation de combinaison est pauvre? Essayez d'apprendre la profondeur du solveur combiné d'intégration

Auteur | Marin Vlastelica

Compile | dix, années

À l'heure actuelle, il y a un ordinateur dans ce sujet très important dans deux directions: l'un est l'algorithme d'optimisation discrète classique - les algorithmes de graphes, tels que solveur, solveur de programmation entiers, l'autre est la hausse au cours des dernières années d'apprentissage en profondeur, ce qui rend axée sur les données extraction de caractéristiques et de bout en bout l'architecture et la conception flexible possible.

Est-il possible de combiner avec une combinaison d'apprentissage en profondeur?

thèse de projecteur IPSC 2020 « Différenciation des Blackbox combinatoires solveurs » a poursuivi cette question.

Dans le document, les auteurs tentent de combiner de façon transparente solveur dans la profondeur du réseau de neurones, et Warcraft problème de chemin le plus court, problème de correspondance parfaite minimum de perte et les problèmes de voyageur de commerce ont été testés. Les résultats des tests montrent que le solveur méthode de combinaison + étude approfondie pour obtenir de meilleurs résultats que les méthodes traditionnelles.

En outre, comme Marin Vlastelica un document sur l'auteur décrit moyenne l'idée principale de ce document, AI Technology Review ont été compilé la suppression de ce qui suit est le texte original profiter ~

La recherche montre que l'état de l'apprentissage de la machine, l'apprentissage en profondeur des méthodes modernes de base intelligence artificielle et les méthodes traditionnelles ne incohérences existent. Extraction de caractéristiques étude approfondie en vision par ordinateur, et de renforcer le domaine de l'apprentissage, le traitement du langage naturel a des fonctionnalités puissantes. Néanmoins, dans sa combinaison Généralisation (généralisation combinatoire) a été critiquée par les chercheurs.

Par exemple, une carte en entrée pour prédire le plus court chemin planification itinéraire le plus rapide sur Google Maps; (Min, Max) problème -Couper, correspondant parfaitement à la perte minimum (Matching parfait coût minimum), le problème du voyageur de commerce, la correspondance graphique problèmes et ainsi de suite.

Si la solution à chaque question individuellement, nous avons de nombreux outils à choisir: vous pouvez utiliser le langage C, vous pouvez utiliser solveur MIP plus générique (programmation mixte en nombres entiers). Bien sûr solveur espace d'entrée pour examiner la question, après tout, il faut une entrée structurée bien définie.

Bien que la combinaison est devenue le domaine de la recherche sur l'apprentissage de la machine attention Point, mais les efforts pour étudier ces problèmes ne suffisent pas. Cela ne signifie pas que les chercheurs font attention à ne pas à une combinaison de problème généralisé, après tout, il est toujours l'un des principaux défis des systèmes intelligents.

Idéalement, les chercheurs peuvent bout à bout, l'extraction riche en fonctionnalités et efficace grâce à une forte approximation de la fonction (tel que les réseaux de neurones) solveur composition ensemble. C'est exactement la thèse « La différenciation des Blackbox combinatoires solveurs » dans atteint. En outre, cet article a reçu les meilleurs scores d'examen, et sélectionné pour les documents de projecteur IPSC 2020.

La partie suivante de l'article, et non pas dans une tentative d'améliorer solveur, mais plutôt d'approximation de la fonction et utilisée conjointement avec solveurs existants.

Si l'on suppose que le solveur boîte noire (solveur Blackbox) est un outil facile Insérer étude approfondie de la structure du module.

gradient de solveur de boîte noire

En continu à la mise en correspondance entre le mode de sortie discret en tant que résolveur, en outre, peut être un apport continu de la partie droite de la figure poids sortie discrète peut être le plus court chemin, l'arête sélectionnée sur la Fig. La carte est caractérisé définie comme suit

Solver peut réduire au minimum une partie de la fonction de perte c (, y), qui peut être une fonction de perte de la longueur du trajet. Ce problème d'optimisation est représenté par la formule suivante:

Dans la formule ci-dessus, w est la sortie du réseau de neurones, l'apprentissage du réseau de neurones est représenté par certains, par exemple, peut être un poids lourd côté de vecteur à la Fig. Dans le problème du plus court chemin, problème du voyageur de commerce, peut être utilisé pour faire une bonne description du problème.

Le problème clé de l'optimisation est de minimiser la fonction de perte, la question est maintenant fonction de perte de piecewise est exprimé, qu'il ya un point de discontinuité de saut. Cela signifie que [oméga] représente le gradient de la fonction 0 est presque partout, et un point de discontinuité de saut, le gradient est pas encore défini.

À l'heure actuelle, l'utilisation de la méthode du solveur de relaxation (relaxation solveur) peut résoudre ce problème, mais va perdre optimalité. Article propose une méthode ne modifie pas le solveur d'optimalité. À savoir, pour définir le segment de l'interpolation affine fonction objectif initial, une interpolation par un contrôle supplémentaire sur le paramètre , comme illustré ci-dessous:

Comme indiqué ci-dessus la partie noire, une valeur de fonction de l'image d'origine est une fonction donnée, une partie orange est une valeur déterminée par interpolation. La valeur minimale ne change pas.

Bien sûr, le domaine f est multidimensionnel. Ainsi, pour la même valeur de f, il peut y avoir une pluralité correspondante de w. Qui est mis en est envoyé à un polyèdre, le f de sortie peut avoir la même valeur. Bien entendu, il y a beaucoup de ces domaines f polyèdre. Super paramètre de manière efficace compensée par l'entrée polyèdre solveur perturbation. Définit un interpolateur cible affines par morceaux de décalage polyèdre g frontière avec les limites d'origine.

Comme on le voit ci-dessous, la valeur f (y2) est déplacée vers une des valeurs limites polyédriques f (y1) à. Cela explique aussi pourquoi incliné visuellement plus à utiliser le paramètre ultra-grand . Le décalage doit être assez grand pour obtenir un gradient utile interpolateur g

Tout d'abord, définir une solution d'optimisation des perturbations au problème, dans lequel les paramètres de perturbation sont commandés par ultra [lambda], la formule suivante:

Si elle est fonction assumée perte c (, y) est le produit scalaire de y et , la cible d'interpolation peut être définie:

fonction de perte de linéarité est moins restrictive que, à première vue. Par exemple, du côté de la sélection, la fonction de perte de poids à considérer et tous les poids des arêtes, des exemples spécifiques en référence au problème du voyageur de commerce et le problème du plus court chemin.

Le paramètre ultra-interpolation de change que les changements décrits ci-dessus à la Fig.

algorithme

En utilisant cette méthode, le gradient peut être calculé en modifiant la propagation inverse de manière à éliminer les incohérences entre la combinaison classique de solveur et l'apprentissage en profondeur.

def avant (CTX, w_): "" "CTX: Contexte pour w_ passe en arrière: poids de problèmes estimés" "" y_ = solveur (w_) # Enregistrer contexte pour passer en arrière ctx.w_ = w_ ctx.y_ = y_ retour y_

propagation vers l'avant, à condition seulement fait ensuite passer un solveur enrobage , la solution le long de. De plus, nous enregistrons et la propagation avant de solution calculée.

def vers l'arrière (ctx, grad): "" "ctx: Contexte de la profondeur" "" w = ctx.w_ + EMT * grad # Calculer le poids perturbé y_lmda = résolveur (w) return - (ctx.y_ - y_lmda) / EMT

Après le transfert, la perturbation du gradient ultra de rétropropagation du paramètre [omega], et en prenant une différence entre la précédente et la perturbation Solutions

Calcul de calcul d'interpolation gradient de tête dépend résolveur, en tête deux fois, un résolveur est appelé processus de propagation vers l'avant, et une fois après le solveur d'appel vers le processus de propagation.

expérience

Pour valider cette méthode, les tâches de conception de synthèse avec un certain degré de complexité pour la vérification. En outre, en raison des méthodes simples d'apprentissage supervisé ne peuvent pas être généralisés aux données n'ont pas vu, donc dans la tâche suivante, cette méthode a prouvé la nécessité d'une combinaison de généralisation.

Pour le plus court chemin de problème, les tâches de test Warcraft, y compris la formation mis problème de chemin le plus court « dans Warcraft II » carte, la carte correspondant aux objectifs de la mission. Plus précisément, l'ensemble de test contient l'inconnu « dans Warcraft II » carte. La carte est lui-même codé en tant que grille K * K. entrée de réseau neuronal convolutif est la carte, la carte est le sommet de la perte de sortie, puis la perte d'un solveur d'entrée. Enfin, résolveur (l'algorithme de Dijkstra du trajet) de sortie pour indiquer le plus court forme d'une matrice de trajectoire sur une carte.

Au début de la formation, le réseau de neurones ne sait pas comment affecter la perte correcte des tuiles de carte, mais une combinaison de solveur + apprentissage en profondeur peut obtenir le meilleur coût, le droit de trouver le chemin le plus court. L'histogramme montre la suite, par rapport aux méthodes traditionnelles de formation ResNet supervision, la généralisation de la combinaison de cette méthode est encore mieux.

Le problème de correspondance parfaite minimum de perte, l'ensemble de données utilisé est MNIST, les objectifs de la mission est de minimiser la perte de chiffres de sortie de MNIST maillage parfaitement adapté. peuvent être inclus Plus précisément, sur cette question, choisir son camp devrait faire tous les sommets exactement une fois, et permet également la perte et minimale. En outre, chaque cellule de la grille comporte un certain nombre de MNIST qui est un noeud dans le graphe est pourvu directions verticale et horizontale des points adjacents. Enfin, la perte est déterminée par les côtés verticaux de deux chiffres à droite vers le bas ou horizontalement.

Le vecteur d'adaptation de sortie indiquant l'arête sélectionnée. perte désadaptation sur la droite est de 348 (46 + 12 horizontal, vertical et + 45 + 2740 + 67 + 78 + 33).

Sur ce tableau de performance ci-dessous, nous pouvons voir clairement le solveur de match parfait réel embarqué dans un réseau de neurones peut obtenir de meilleurs résultats.

Dans le problème du voyageur de commerce, l'ensemble des données de formation est un indicateur (c.-à-la représentation d'origine) et les itinéraires de voyage optimales de capital correspondant. Sortie réseau de neurones est la capitale des meilleurs itinéraires de voyage de chaque pays. Dans le processus de formation du réseau de neurones, la position la plus importante du capital apprentissage représentation implicite. Exemples de formation K comprenant des pays comme indiqué ci-dessous.

Les drapeaux de chacun des pays convolution d'entrée et de sortie de neurones réseau de réseau de voies de déplacement optimal.

Dans l'animation ci-dessous, vous pouvez également voir l'emplacement des capitales lors de la formation du réseau de neurones dans le monde entier.

Tout d'abord, l'emplacement est distribué de façon aléatoire, mais après la formation du réseau de neurones apprennent non seulement les itinéraires TSP de sortie correcte, et l'apprentissage une représentation adéquate de la production, qui est correct coordonnées 3D de chaque capital. Il est intéressant de noter que ce n'est en utilisant une perte de distance de Hamming dans la supervision du processus de formation, et l'utilisation de Gurobi le MIP sur la sortie du réseau atteint.

résumé

En fait, sous certaines hypothèses, il a fait ses preuves solveur fonction de perte, le gradient peut se propager par une combinaison de solveur de boîte noire. Cette combinaison permet aux capacités de généralisation des méthodes traditionnelles de mise en uvre de l'architecture de réseau de neurones supervisé norme.

+ Etude approfondie d'une combinaison de méthodes d'apprentissage solveur peut être largement utilisé dans un certain nombre de problèmes pratiques doivent être le raisonnement combiné. Cependant, les mensonges de problème dans l'hypothèse que la perte de solveur linéaire Dans cette hypothèse, nous avons vraiment peut aller loin? Les priorités et les problèmes à l'avenir est de savoir si nous pouvons apprendre une contrainte potentielle à une combinaison de problèmes tels que des problèmes combinatoires MIP.

références

Vlastelica, Marin, et al "Différenciation des Blackbox combinatoires solveurs" arXiv prépublication arXiv :. 1912,02 175  (2019). (Http://bit.ly/35IowfE)

Rolinek, Michal, et al "Metrics base Rank adaptif avec Blackbox Différenciation." ArXiv prépublication arXiv :. 1912,03500 (2019) (

https: // towardsdatascience .com / La fusion-de-apprentissage et-profonde combinatoires-4d0112a74fa7

Pourquoi est fonction de réseau de neurones inactif est pas disponible?
Précédent
AAAI2020 | prochain roman épidémie de coronavirus, a également à la réunion?
Prochain
Il est temps d'abandonner le réseau de neurones récurrents
projets publics WuHan.support officiellement recrutés amis
évolution nerveuse: une étude non approfondie
De Mahjong à « pesticides », a capturé la répartition de jeu AI
Le plus complet ! Quels sont les grands événements dans le domaine de la PNL en 2019 ?
couplets Fête du Printemps qui AI forte de se fâcher
AAAI 2020 | Université Zhongshan HCP laboratoire: basé sur l'arbre des stratégies d'apprentissage de renforcement progressif, le code open source a été
attaque sous-marque, la musique de nuage Netease fonction « conservateur »
« 2020 Technology Trend »: AI et la Chine, le monde futur de la technologie Mots-clés
Que plus de 200 milliards de marché chinois animal de compagnie?
Ali sort do collation, le tremblement est probablement pas trois écureuils, boutique Ichiban et la saveur des herbes
Après l'ère de l'industrie de la vente au détail de l'épidémie: comment améliorer l'efficacité des opérations en magasin par l'utilisateur?