Comprenez-vous vraiment la descente de gradient stochastique dans la « optimisation globale » il?

[Test] Ji-won dans un document Missouri University of Science et de la technologie en coopération avec grand laboratoire de données Baidu, les chercheurs comportement SGD en profondeur le processus de formation du réseau de neurones ont été décrit à partir d'un point de vue théorique, révélant des éléments aléatoires SGD la sélection finale du point minimum global du rôle clé. Ce travail approfondit la compréhension du processus d'optimisation SGD, mais aussi aider à construire une formation en profondeur théorique réseau de neurones.

algorithme d'apprentissage machine de descente de gradient est la méthode d'optimisation le plus utilisé.

Parmi eux, la descente de gradient stochastique (Stochastic gradient descente, SGD) en raison du taux d'apprentissage rapide et peut être mis à jour en ligne, sont souvent utilisés pour former une variété de l'apprentissage de la machine et le modèle d'apprentissage en profondeur, beaucoup du modèle meilleure performance actuelle (SOTA) utilise le SGD.

Cependant, étant donné que chaque sélection aléatoire de SGD à partir d'un petit échantillon de l'ensemble de la formation pour l'apprentissage, ne pouvait pas continuer dans la bonne direction à chaque mise à jour, optimisant ainsi les fluctuations se produisent.

Pour la fonction non-convexe, SGD ne convergent vers un optimum local. Mais en même temps, cette fluctuation aléatoire SGD peut également contenir une direction optimalité mieux passer à un autre minimum local du local actuel, ou même un optimum global.

Dans un document récemment publiquement la coopération de l'Université du Missouri de la science et de grand laboratoire de données Baidu, les chercheurs La théorie des grandes déviations à l'aide de la théorie des probabilités de comportement SGD en profondeur le processus de formation de réseau de neurones ont été dépeinte .

« Le point de départ de ce travail tente de comprendre le processus d'optimisation et de SGD GD Quelle est la différence, en particulier les éléments SGD au hasard (GD ne se trouve pas) dans le jeu final quel rôle dans une régularisation implicite. » Le premier auteur du papier, Ph.D. Hu Wenqing Département de mathématiques, Université du Missouri professeur adjoint des sciences et de la technologie a déclaré dans une nouvelle interview avec Ji-won.

« Par l'analyse variationnelle et la fonction potentiel structurel, nous avons constaté qu'en raison de la présence de la variance (variance), pour toutes les conditions locales optimales, SGD a une certaine possibilité d'évasion. » Chef de file de la recherche, Baidu grandes quantités de données scientifiques de laboratoire Dr Huan juin a dit nouveau Ji-won: « Si le temps est assez long, SGD traversera tout le chemin de chaînes de Markov optima locaux, et, finalement, atteindre un optimum global. »

« Pour le paramètre sur le réseau (réseau sur paramétrés), le point global optimal du gradient est 0.SGD tout point de données sera limitée à une telle position. »

Différentes perte de performances d'optimisation de descente de gradient au niveau des surfaces de point de selle, à travers les paramètres globaux de réseau les plus avantageux en tout point de données du gradient est 0, SGD sera limité en position telle.

Ce travail nous aide à une meilleure compréhension des mécanismes et le rôle de la profondeur SGD dans la formation des processus de réseau de neurones, ainsi que d'autres modèles d'apprentissage machine de formation.

Fonction potentiel Quasi: régularisation de la fonction de perte implicite de descente de gradient stochastique

Il est largement admis SGD est une « régularisation implicite », en mesure de se concentrer sur leur propre pour trouver un point de minimum local dans le modèle ou les données.

Des recherches antérieures ont déduit du point de vue variationnelle d'évasion SGD mauvais phénomène minima. On trouve également, le taux d'échappement SGD covariance de bruit pertinents, en particulier dans la profondeur du modèle de réseau de neurones.

Dans cet article, intitulé « entend fonction de potentiel considéré comme une perte à long terme de régularisation implicite de descente de gradient stochastique de la fonction », les auteurs proposent une approche unifiée, Sera préparé comme un pont potentiel pour quantifier la relation entre la structure de covariance des éléments aléatoires SGD avec des contacts établis dans SGD positif implicite .

« Du « potentiel du projet » Ce point de vue unifié peut être plus clairement décrire la dynamique de longue SGD mathématiquement. » Le Dr Hu a dit Wenqing.

En particulier, ils descente de gradient stochastique (SGD) inférence variationnelle est considérée comme une procédure de minimisation de la fonction potentiel, cette fonction potentiel qu'ils ont appelé « fonction quasi potentiel » (quasi-potentiel), avec un (global) Quasi potentiel de représentation QP.

La fonction potentielle proposée peut être caractérisée par un faible taux d'apprentissage du comportement à long terme de SGD. Les chercheurs ont démontré, SGD minima en fin de compte mondial, dépend à la fois la fonction de perte initiale F, est également dépendante de la SGD portant structure de covariance aléatoire à long terme.

De plus, la théorie prédit ce travail pour le problème moyen d'optimisation non convexe sont établis, il révèle la structure de covariance SGD aléatoire dans leur choix final du point minimum global de ce processus dynamique d'un rôle clé, révèle en outre régularisation implicite du mécanisme d'apprentissage automatique de SGD.

Ce qui suit est une compilation d'une nouvelle fonction de perte convexe papier Zhi Yuan de la partie concernée, Cliquez sur « lire l'original » Voir le document En savoir plus .

proposé potentiel local: un cas convexe fonction de perte

Nous supposons que la fonction de perte f d'origine (x) est une fonction convexe, ce qui permet seulement un joint de point de minimum, qui est aussi son minimum global. Set O est l'origine.

Nous allons introduire la fonction potentiel quasi-locale dans cette section, et par Hamilton - reliant à la structure de covariance du bruit SGD Jacobi équations aux dérivées partielles. Sur la base de l'analyse de la LDT est interprété comme un espace de trajectoire de la théorie de l'intégrale de chemin.

SGD comme descente de gradient (GD), une petite perturbation aléatoire

Tout d'abord, nous présentons une hypothèse:

Hypothèse 1: Supposons que la fonction de perte f (x) permet le gradient f (x), à savoir la L-Lipschitz:

Nous supposons que (x) est pour l'ensemble du segment xRd Lipschitz x, SDG et matrice de covariance D (x) est réversible, de telle sorte que:

Pour > 0, un processus de SGD a diminué par la fermeture de gradient suivant l'équation déterministe caractérisé (GD) trajectoire d'écoulement:

En fait, nous pouvons facilement prouver ce qui suit:

Lemme 1: 1 basé sur l'hypothèse que nous avons, pour tout T> 0,

Pour certains C constant = C (T, L, M) >  0.

Lorsque l'équation ci-dessus tient, on pourrait facilement faire valoir que dans l'intervalle 0tT, x (t) et XGD (t) converge vers

Ainsi, dans un temps limité, le processus de SGD x (t) sera attiré par le voisinage de l'origine O.

Puisque O est fonction convexe de perte f (x) seul point minimum, R est un gradient en chaque point sont attirés par le courant Rd O.

Dans le seul cas où en raison de petites perturbations aléatoires O point minimal, peut être réalisée échapper attracteur caractéristique compréhension (l'attracteur) est.

Théorie des grandes déviations pour expliquer la trajectoire trajectoire d'intégration dans l'espace

Pour décrire quantitativement les propriétés d'évasion, nous vous recommandons d'utiliser une grande théorie de l'écart (LDT) dans la théorie des probabilités. Grosso modo, la théorie donne l'espace de probabilité de poids droit chemin, et la partie exposant de poids d'un rôle fonctionnel dans la quantité de S est donnée.

Solutions Jacobi - un problème variationnel hamiltonien local et fonction potentielle proposée

Nous pouvons définir une fonction locale quasi potentiel est:

L'équation (5) et l'équation suivante 6) de liaison

Compte tenu de la mesure constante asymptotique exponentielle:

Cela signifie que seulement une situation stable dans le système de gradient de O attracteur, à un potentiel QP (x) est une QPloc partielle (x, x0) donnée, qui est une solution problème variationnel (équation 5).

Échapper à des attributs de point minimum local (partiel Quasi potentiel)

QPloc potentiel local (Quasi x, X0) Une autre caractéristique importante est qu'il décrit la nature échapper au point minimum local. Échapper à la valeur minimale à la valeur minimale nette plat est un résultat de caractéristiques clés de bonne généralisation.

LDT est estimée à fournir un outil qui peut obtenir des estimations de probabilité de sortie pour l'index, et un temps moyen de première sortie de l'attracteur.

Et nous pouvons prouver qu'un processus x (t) dans la nature d'évasion à un point minimum local, comme une sortie et le temps moyen pour échapper à même le premier emplacement de sortie qui est associée au but potentiel.

Potentiel mondial proposé: les chaînes de Markov cinétique SGD entre les points minimums locaux respectifs

Supposons maintenant que la fonction de perte f (x) est non-convexe, il existe plusieurs minimum local. Dans ce cas, la zone d'attraction de chaque point minimum local peut être décrit mathématiquement par la configuration ci-dessus Quasi potentiel local.

SGD après avoir entré un minimum local, qui sera sous l'effet de la structure de covariance causée par le bruit, échapper au minimum local, d'entrer dans un autre minimum local.

Selon l'introduction, qui peut échapper à un potentiel prévu est donnée par les autorités locales. Toutefois, dans le cas des minima globaux, locaux entre les différents potentiels quasi point, il est pas la même chose, d'un point minimum de cette transition résultant de fuite entre les autres minima, induit un pôle partiel chaîne de Markov entre la faible valeur du point.

Notre article souligne, la limite temporelle du comportement SGD, il est de cette manière les chaînes de Markov, à travers le minimum local possible, et finalement atteindre un point de minimum global.

Il est une valeur que ce mention point n'est pas nécessairement le minimum global est un point de minimum global de la fonction de perte initiale, mais au hasard et à la structure de covariance SGD pertinente, cela peut être localement par la partie supérieure de la configuration proposée potentielle le mode voir.

Cela indique que la structure covariance SGD générée aléatoire, influencer le choix de son comportement à long terme et, en fin de compte, le point minimum global.

Un exemple est donné dans l'article décrit en tant que fonction de perte f (x) comporte deux points de minimum global complètement symétrique, et elle correspond à une structure différente de covariance des circonstances, dans lequel le SGD préférera un pôle mondial petite valeur du point, lequel point correspond à une structure de covariance minimale est plus près isotrope (isotrope).

travaux futurs

Les chercheurs espèrent que, grâce à ce travail, à une meilleure compréhension, en particulier la relation entre la généralisation et la structure de covariance de généralisation SGD formés sur minima locaux. Sur cette base, ils attendent avec impatience d'autres résultats ne seront pas limitées réseaux de neurones overparametrized, mais la profondeur générale des modèles d'apprentissage applicables.

Prenez une minute avant deux est pas fin du monde! Historiquement, il y a eu quatre équipes qualifiées rencontre ce dilemme, mais contre-attaque
Précédent
Surprise! Lanterne mouche à coup explosé! L'huile chaude ou de l'effondrement même dans ses yeux ...
Prochain
Les derniers classements Groupe C: la France gagne avant les qualifications, le Pérou a été éliminé en Australie à un fil
Le nouveau Jeep Commander: Il est difficile de refuser un grand cinq SUV
« Ne pas foule! Lentement rendu un par un! »
Dieu P Figure les fans spoof Iran Islande se sont réunis scène, 10-0-0 duel de bus, Mourinho est venu aussi de voler la division
Ali et LV, Samsung et d'autres équipe anti-contrefaçon Ma a promis d'épuiser tous les moyens autres sources
Le nouveau Jeep Commander: Il est difficile de refuser un grand cinq SUV
Chen Yu Fan drogues a été arrêté, le fonctionnaire le couteau était un vrai marteau, initialement prévu pour la fin du concert annulé
Google GPipe open source: paramètre de traitement unique accélérateur 318 millions, 25 fois plus rapide
Réfléchissons rapport du réservoir: la Chine innovation de silicium lent, veulent briser trop dur
L'Espagne a battu le Portugal par moins temporairement TIRAGE classé premier dans la circonscription du groupe B ou au scrutin ensemble classé maintenant merveilles
Le nouveau Jeep Commander: Il est difficile de refuser un grand cinq SUV
consommateur chinois dépenser une forte grande poussée Rooster limitée suck « partie de la main chop »