L'un des plus optimisation commune apprentissage machine � � sec � - R�sum� de l'algorithme d'optimisation de descente de gradient

1 Ji-won nouvelle r�impression autoris�e

annuaire

Trois types de cadre d'optimisation de descente de gradient

Lot descente de gradient

descente de gradient Stochastique

descente petit gradient de lot

Enjeux et d�fis
Gradient optimisation descente algorithme

�lan

gradient Nesterov acc�l�r�

Adagrad

Adadelta

RMSprop

Adam

Visualisation algorithme
Choisissez l'algorithme d'optimisation?
SDG parall�le et distribu�e

Hogwild!

Downpour SGD

D�lai tol�rant Algorithmes pour SGD

tensorflow

�lastique SGD calcul de la moyenne

Plus strat�gie d'optimisation SDG

jeu de formation au hasard et cours brass�

lot normalisation

Arr�t pr�coce

bruit gradient

r�sum�
citation

Trois types de cadre d'optimisation de descente de gradient

Lot descente de gradient (lot de descente de gradient)

Par montant total de l'ensemble de la formation pour mettre � jour les param�tres du mod�le, � savoir: = -J ()

nombre maximum d'�poques it�rations est entr� par l'utilisateur. Appel peut �tre vu le code, le calcul du gradient de chaque fonction de la perte de loss_function de params_grad utilisant tout l'ensemble d'apprentissage, le gradient de vitesse d'apprentissage learning_rate vers la direction oppos�e pour mettre � jour le mod�le pour chaque param�tre params. Certaines g�n�rale des biblioth�ques d'apprentissage machine existantes offrent un calcul de gradient api. Si vous voulez �crire du code pour calculer leurs propres mains, nous devons v�rifier si le processus de mise au point du programme de calcul de gradient correct.

descente de gradient stochastique (descente de gradient stochastique)

perturbation Figure 1 SGD

Petite descente de gradient de traitement par lots (descente de gradient mini-lot)

= -J (; xi: i + m; yi: i + m)

Enjeux et d�fis

Bien que l'algorithme de descente de gradient bon effet, et il est largement utilis�, mais en m�me temps qu'il ya des d�fis et des probl�mes � r�soudre:

S�lectionnez un taux raisonnable d'apprentissage difficile. Si le taux d'apprentissage est trop petit, cela conduira � une convergence tr�s lente. Si le taux d'apprentissage est trop �lev�, il g�nera la convergence, qui oscillent autour du point extr�me.

ajustement du taux d'apprentissage (�galement appel� programmation de d�bit d'apprentissage, les bar�mes de taux d'apprentissage) � chaque tentative de processus de mise � jour pour changer le taux d'apprentissage, tel que le recuit. politiques g�n�rales d'utilisation ou l'att�nuation de certains mis en avant un seuil plus faible � chaque it�ration. Les deux m�thodes de r�glage, vous devez �tre fix� � l'avance, ne peut pas �tre ici, les caract�ristiques des ensembles de donn�es d'apprentissage adaptatif de chacun des .

Tous les param�tres du mod�le sont mis � jour chaque fois en utilisant le m�me taux d'apprentissage. Si les donn�es sont des caract�ristiques rares ou caract�ristiques de chacun a des caract�ristiques diff�rentes et valeur statistique spatiale, alors vous ne pouvez pas utiliser les m�mes param�tres pour chacun des taux d'apprentissage dans chaque mise � jour, la fonctionnalit� qui devrait rarement utiliser une relativement grande le taux d'apprentissage.

Pour fonction objective non-convexe, ceux qui sont vuln�rables aux sous-optimaux points de extrema locaux, comme dans le r�seau de neurones. Alors, comment l'�viter. Dauphin indique un probl�me plus grave que le point d'extr�me local, mais un point de selle.

Gradient optimisation descente algorithme

�lan

gradient Nesterov acc�l�r� (NAG)

vt = t-1 + J (-t-1), = -vt

Adagrad

Adam

Visualisation algorithme

Comme on peut le voir sur la figure ,, SGD, Momentum NAG a �t� secou� avec le point selle dans la direction du gradient est �gal � z�ro au niveau du point selle (points de selle) � (� savoir gradient z�ro, les dimensions de certains gradient non nul sur certaines dimensions), difficile de rompre la sym�trie de la position du point selle; Adagrad, RMSprop Adadelta et peuvent rapidement se d�placer dans la direction du gradient est non nulle.

Comment choisir optimiseur SGD

SGD parall�le et distribu�

Hogwild

Niu Proc�d� parall�le appel� Hogwild le SGD. Le proc�d� passe en parall�le dans une pluralit� de temps de calcul. Le processeur acc�de aux param�tres de la m�moire partag�e, et ces param�tres ne sont pas verrouill�s. Il cpu attribu� pour chaque partie ne param�tre chevauchement (attribu� mutuellement exclusifs), chaque cpu met � jour uniquement les param�tres responsables. Cette m�thode ne convient que pour le traitement des donn�es est fonction clairsem�e. Cette m�thode peut presque atteindre un taux de convergence optimal, car il n'y a pas m�me information de r��criture entre cpu.

Downpour SGD

Downpour SGD est Dean propos� une variante de SGD asynchrone utilis� dans DistBelief (le pr�d�cesseur de Google tensorflow). Elle forme copie simultan�ment plusieurs mod�les sur le sous-ensemble de la formation. Ces copies seront envoy�es au serveur de mise � jour des param�tres respectifs (PS, serveur de param�tres), les mises � jour du serveur seulement une partie de chaque param�tre param�tres mutuellement exclusifs, ne communiquent pas entre les copies. Ce qui pourrait conduire au d�triment des param�tres de divergence de convergence.

D�lai tol�rant Algorithmes pour SGD

McMahan et Streeter extension AdaGrad, retard tol�rant par le d�veloppement de l'algorithme (algorithmes de tol�rance de retard), l'algorithme adaptatif seulement des gradients pass�s, et le retard mis � jour. Cette m�thode a �t� montr� pour �tre efficace dans la pratique.

tensorflow

Tensorflow est open source de Google une biblioth�que d'apprentissage automatique � grande �chelle, qui est le pr�d�cesseur DistBelief. Il a �t� utilis� dans un grand nombre sur un appareil mobile ou grand, les clusters distribu�s ont �t� par l'�preuve de la pratique. Sa mise en uvre distribu�e est bas�e sur un calcul, il est divis� en une pluralit� de sous diagramme figure, chaque entit� de calcul en tant que noeud de calcul dans le graphique, ils communiquent par Rend / r�ception.

�lastique SGD calcul de la moyenne

Zhang et al. propos� SGD Moyennage �lastique (EASGD), qui sont reli�s les uns aux travaux de mani�re asynchrone mis � jour par un param�tre force �lastique (un centre serveur de stockage de param�tres).

Plus strat�gie d'optimisation de SGD

Et programme d'apprentissage Shuffling

Afin de rendre le processus d'apprentissage plus impartial, al�atoire devrait perturber l'ensemble des �chantillons de formation � chaque it�ration.

D'autre part, dans de nombreux cas, nous r�solvons progressivement le probl�me, mais l'ensemble de la formation selon un ordre significatif permettra d'am�liorer la performance du mod�le et de la convergence SGD, comment construire un ensemble de formation est un arrangement significatif Curriculum vis� apprentissage .

Zaremba et Sutskever Apprentissage de programme pour former � l'utilisation de LSTMs pour r�soudre certains probl�mes simples, ce qui sugg�re qu'une combinaison de strat�gie politique ou mixte est mieux que l'ensemble de la formation selon l'ordre croissant selon la difficult� de la formation. (Exprim� ne sais pas, mauvais)

normalisation des lots

Afin de faciliter la formation, nous avons habituellement des param�tres initialis�s z�ro moyenne 1 variance, la formation continue, � divers param�tres de mise � jour de degr�s, de sorte que ces param�tres se traduira par la perte de la distribution des biens 01 �cart, ce qui r�duira la vitesse des trains et des param�tres d'amplification avec l'approfondissement de changement dans la structure du r�seau.

normalisation des lots 0 les param�tres signifie � nouveau une variance normalis�e apr�s chaque r�tropropagation mini-lot. Cela permet l'utilisation du taux d'apprentissage plus et d�penser moins d'�nergie sur le point d'initialisation des param�tres. la normalisation des lots agit comme une r�gularisation, r�duire ou m�me �liminer la n�cessit� Dropout.

arr�t pr�coce

Si le processus continu de multiples it�rations de la fonction de perte n'est plus r�duit de mani�re significative sur l'ensemble de validation, il doit mettre fin � la formation initiale, reportez-vous NIPS d�taill�es 2015 diapositives tutoriel, ou une m�thode pour pr�venir, voir surajustement.

bruit gradient

Gradient bruit �-dire en ajoutant � chaque it�ration un gradient de distribution gaussienne N (0, 2t) erreur al�atoire, � savoir,

gt, i = gt, i + N (0, 2t)

variance d'erreur gaussienne n�cessite recuit:

2t = (1 + t)

Le gradient augment� erreur al�atoire augmentera la robustesse du mod�le, m�me si la valeur initiale des param�tres aux pauvres, et particuli�rement adapt� � la responsabilit� profonde de former le r�seau. La raison est d'augmenter le bruit al�atoire aura plus de possibilit�s de sauter les optima locaux et de trouver une meilleure optima locale, cette possibilit� est plus fr�quente dans le r�seau de niveau profond.

r�sum�

Cet article est reproduit avec l'autorisation de la traduction: http: //blog.csdn.net/heyongluoyao8/article/details/52478715

Puisque le mot micro-lettre limite article, cet article ne mentionne pas toutes les r�f�rences, s'il vous pla�t voir le cachet original.

Cliquez pour lire le texte, voir les nouveaux emplois Ji-won

Route de la soie

Apprenez � conna�tre la Chine

L'un des plus optimisation commune apprentissage machine � � sec � - R�sum� de l'algorithme d'optimisation de descente de gradient