Comprenez-vous vraiment la descente de gradient stochastique dans la � optimisation globale � il?

[Test] Ji-won dans un document Missouri University of Science et de la technologie en coop�ration avec grand laboratoire de donn�es Baidu, les chercheurs comportement SGD en profondeur le processus de formation du r�seau de neurones ont �t� d�crit � partir d'un point de vue th�orique, r�v�lant des �l�ments al�atoires SGD la s�lection finale du point minimum global du r�le cl�. Ce travail approfondit la compr�hension du processus d'optimisation SGD, mais aussi aider � construire une formation en profondeur th�orique r�seau de neurones.

algorithme d'apprentissage machine de descente de gradient est la m�thode d'optimisation le plus utilis�.

Parmi eux, la descente de gradient stochastique (Stochastic gradient descente, SGD) en raison du taux d'apprentissage rapide et peut �tre mis � jour en ligne, sont souvent utilis�s pour former une vari�t� de l'apprentissage de la machine et le mod�le d'apprentissage en profondeur, beaucoup du mod�le meilleure performance actuelle (SOTA) utilise le SGD.

Cependant, �tant donn� que chaque s�lection al�atoire de SGD � partir d'un petit �chantillon de l'ensemble de la formation pour l'apprentissage, ne pouvait pas continuer dans la bonne direction � chaque mise � jour, optimisant ainsi les fluctuations se produisent.

Pour la fonction non-convexe, SGD ne convergent vers un optimum local. Mais en m�me temps, cette fluctuation al�atoire SGD peut �galement contenir une direction optimalit� mieux passer � un autre minimum local du local actuel, ou m�me un optimum global.

Dans un document r�cemment publiquement la coop�ration de l'Universit� du Missouri de la science et de grand laboratoire de donn�es Baidu, les chercheurs La th�orie des grandes d�viations � l'aide de la th�orie des probabilit�s de comportement SGD en profondeur le processus de formation de r�seau de neurones ont �t� d�peinte .

� Le point de d�part de ce travail tente de comprendre le processus d'optimisation et de SGD GD Quelle est la diff�rence, en particulier les �l�ments SGD au hasard (GD ne se trouve pas) dans le jeu final quel r�le dans une r�gularisation implicite. � Le premier auteur du papier, Ph.D. Hu Wenqing D�partement de math�matiques, Universit� du Missouri professeur adjoint des sciences et de la technologie a d�clar� dans une nouvelle interview avec Ji-won.

� Par l'analyse variationnelle et la fonction potentiel structurel, nous avons constat� qu'en raison de la pr�sence de la variance (variance), pour toutes les conditions locales optimales, SGD a une certaine possibilit� d'�vasion. � Chef de file de la recherche, Baidu grandes quantit�s de donn�es scientifiques de laboratoire Dr Huan juin a dit nouveau Ji-won: � Si le temps est assez long, SGD traversera tout le chemin de cha�nes de Markov optima locaux, et, finalement, atteindre un optimum global. �

� Pour le param�tre sur le r�seau (r�seau sur param�tr�s), le point global optimal du gradient est 0.SGD tout point de donn�es sera limit�e � une telle position. �

Diff�rentes perte de performances d'optimisation de descente de gradient au niveau des surfaces de point de selle, � travers les param�tres globaux de r�seau les plus avantageux en tout point de donn�es du gradient est 0, SGD sera limit� en position telle.

Ce travail nous aide � une meilleure compr�hension des m�canismes et le r�le de la profondeur SGD dans la formation des processus de r�seau de neurones, ainsi que d'autres mod�les d'apprentissage machine de formation.

Fonction potentiel Quasi: r�gularisation de la fonction de perte implicite de descente de gradient stochastique

Il est largement admis SGD est une � r�gularisation implicite �, en mesure de se concentrer sur leur propre pour trouver un point de minimum local dans le mod�le ou les donn�es.

Des recherches ant�rieures ont d�duit du point de vue variationnelle d'�vasion SGD mauvais ph�nom�ne minima. On trouve �galement, le taux d'�chappement SGD covariance de bruit pertinents, en particulier dans la profondeur du mod�le de r�seau de neurones.

Dans cet article, intitul� � entend fonction de potentiel consid�r� comme une perte � long terme de r�gularisation implicite de descente de gradient stochastique de la fonction �, les auteurs proposent une approche unifi�e, Sera pr�par� comme un pont potentiel pour quantifier la relation entre la structure de covariance des �l�ments al�atoires SGD avec des contacts �tablis dans SGD positif implicite .

� Du � potentiel du projet � Ce point de vue unifi� peut �tre plus clairement d�crire la dynamique de longue SGD math�matiquement. � Le Dr Hu a dit Wenqing.

En particulier, ils descente de gradient stochastique (SGD) inf�rence variationnelle est consid�r�e comme une proc�dure de minimisation de la fonction potentiel, cette fonction potentiel qu'ils ont appel� � fonction quasi potentiel � (quasi-potentiel), avec un (global) Quasi potentiel de repr�sentation QP.

La fonction potentielle propos�e peut �tre caract�ris�e par un faible taux d'apprentissage du comportement � long terme de SGD. Les chercheurs ont d�montr�, SGD minima en fin de compte mondial, d�pend � la fois la fonction de perte initiale F, est �galement d�pendante de la SGD portant structure de covariance al�atoire � long terme.

De plus, la th�orie pr�dit ce travail pour le probl�me moyen d'optimisation non convexe sont �tablis, il r�v�le la structure de covariance SGD al�atoire dans leur choix final du point minimum global de ce processus dynamique d'un r�le cl�, r�v�le en outre r�gularisation implicite du m�canisme d'apprentissage automatique de SGD.

Ce qui suit est une compilation d'une nouvelle fonction de perte convexe papier Zhi Yuan de la partie concern�e, Cliquez sur � lire l'original � Voir le document En savoir plus .

propos� potentiel local: un cas convexe fonction de perte

Nous supposons que la fonction de perte f d'origine (x) est une fonction convexe, ce qui permet seulement un joint de point de minimum, qui est aussi son minimum global. Set O est l'origine.

Nous allons introduire la fonction potentiel quasi-locale dans cette section, et par Hamilton - reliant � la structure de covariance du bruit SGD Jacobi �quations aux d�riv�es partielles. Sur la base de l'analyse de la LDT est interpr�t� comme un espace de trajectoire de la th�orie de l'int�grale de chemin.

SGD comme descente de gradient (GD), une petite perturbation al�atoire

Tout d'abord, nous pr�sentons une hypoth�se:

Hypoth�se 1: Supposons que la fonction de perte f (x) permet le gradient f (x), � savoir la L-Lipschitz:

Nous supposons que (x) est pour l'ensemble du segment xRd Lipschitz x, SDG et matrice de covariance D (x) est r�versible, de telle sorte que:

Pour > 0, un processus de SGD a diminu� par la fermeture de gradient suivant l'�quation d�terministe caract�ris� (GD) trajectoire d'�coulement:

En fait, nous pouvons facilement prouver ce qui suit:

Lemme 1: 1 bas� sur l'hypoth�se que nous avons, pour tout T> 0,

Pour certains C constant = C (T, L, M) > �0.

Lorsque l'�quation ci-dessus tient, on pourrait facilement faire valoir que dans l'intervalle 0tT, x (t) et XGD (t) converge vers

Ainsi, dans un temps limit�, le processus de SGD x (t) sera attir� par le voisinage de l'origine O.

Puisque O est fonction convexe de perte f (x) seul point minimum, R est un gradient en chaque point sont attir�s par le courant Rd O.

Dans le seul cas o� en raison de petites perturbations al�atoires O point minimal, peut �tre r�alis�e �chapper attracteur caract�ristique compr�hension (l'attracteur) est.

Th�orie des grandes d�viations pour expliquer la trajectoire trajectoire d'int�gration dans l'espace

Pour d�crire quantitativement les propri�t�s d'�vasion, nous vous recommandons d'utiliser une grande th�orie de l'�cart (LDT) dans la th�orie des probabilit�s. Grosso modo, la th�orie donne l'espace de probabilit� de poids droit chemin, et la partie exposant de poids d'un r�le fonctionnel dans la quantit� de S est donn�e.

Solutions Jacobi - un probl�me variationnel hamiltonien local et fonction potentielle propos�e

Nous pouvons d�finir une fonction locale quasi potentiel est:

L'�quation (5) et l'�quation suivante 6) de liaison

Compte tenu de la mesure constante asymptotique exponentielle:

Cela signifie que seulement une situation stable dans le syst�me de gradient de O attracteur, � un potentiel QP (x) est une QPloc partielle (x, x0) donn�e, qui est une solution probl�me variationnel (�quation 5).

�chapper � des attributs de point minimum local (partiel Quasi potentiel)

QPloc potentiel local (Quasi x, X0) Une autre caract�ristique importante est qu'il d�crit la nature �chapper au point minimum local. �chapper � la valeur minimale � la valeur minimale nette plat est un r�sultat de caract�ristiques cl�s de bonne g�n�ralisation.

LDT est estim�e � fournir un outil qui peut obtenir des estimations de probabilit� de sortie pour l'index, et un temps moyen de premi�re sortie de l'attracteur.

Et nous pouvons prouver qu'un processus x (t) dans la nature d'�vasion � un point minimum local, comme une sortie et le temps moyen pour �chapper � m�me le premier emplacement de sortie qui est associ�e au but potentiel.

Potentiel mondial propos�: les cha�nes de Markov cin�tique SGD entre les points minimums locaux respectifs

Supposons maintenant que la fonction de perte f (x) est non-convexe, il existe plusieurs minimum local. Dans ce cas, la zone d'attraction de chaque point minimum local peut �tre d�crit math�matiquement par la configuration ci-dessus Quasi potentiel local.

SGD apr�s avoir entr� un minimum local, qui sera sous l'effet de la structure de covariance caus�e par le bruit, �chapper au minimum local, d'entrer dans un autre minimum local.

Selon l'introduction, qui peut �chapper � un potentiel pr�vu est donn�e par les autorit�s locales. Toutefois, dans le cas des minima globaux, locaux entre les diff�rents potentiels quasi point, il est pas la m�me chose, d'un point minimum de cette transition r�sultant de fuite entre les autres minima, induit un p�le partiel cha�ne de Markov entre la faible valeur du point.

Notre article souligne, la limite temporelle du comportement SGD, il est de cette mani�re les cha�nes de Markov, � travers le minimum local possible, et finalement atteindre un point de minimum global.

Il est une valeur que ce mention point n'est pas n�cessairement le minimum global est un point de minimum global de la fonction de perte initiale, mais au hasard et � la structure de covariance SGD pertinente, cela peut �tre localement par la partie sup�rieure de la configuration propos�e potentielle le mode voir.

Cela indique que la structure covariance SGD g�n�r�e al�atoire, influencer le choix de son comportement � long terme et, en fin de compte, le point minimum global.

Un exemple est donn� dans l'article d�crit en tant que fonction de perte f (x) comporte deux points de minimum global compl�tement sym�trique, et elle correspond � une structure diff�rente de covariance des circonstances, dans lequel le SGD pr�f�rera un p�le mondial petite valeur du point, lequel point correspond � une structure de covariance minimale est plus pr�s isotrope (isotrope).

travaux futurs

Les chercheurs esp�rent que, gr�ce � ce travail, � une meilleure compr�hension, en particulier la relation entre la g�n�ralisation et la structure de covariance de g�n�ralisation SGD form�s sur minima locaux. Sur cette base, ils attendent avec impatience d'autres r�sultats ne seront pas limit�es r�seaux de neurones overparametrized, mais la profondeur g�n�rale des mod�les d'apprentissage applicables.

Route de la soie

Apprenez � conna�tre la Chine

Comprenez-vous vraiment la descente de gradient stochastique dans la � optimisation globale � il?