Wang compil� de New Medium

Qubit produit | Num�ro public QbitAI

Lors du r�glage des poids et des param�tres du mod�le mise � jour de polarisation la fa�on dont vous pens� � ce type d'algorithme d'optimisation du mod�le peut produire de meilleurs r�sultats et plus rapidement? Il devrait �tre descente de gradient, descente de gradient stochastique ou m�thode Adam?

Cet article d�crit les principales diff�rences entre les diff�rents algorithmes d'optimisation, et comment choisir la meilleure m�thode d'optimisation.

Qu'est-ce que l'optimisation?

algorithme d'optimisation, en am�liorant les m�thodes de formation pour minimiser (ou maximiser) fonction de perte E (x).

Certains des param�tres du mod�le interne de l'ensemble de test est utilis� pour calculer la valeur cible du degr� d'�cart de la valeur r�elle Y et la valeur pr�dite sur la base de ces param�tres, pour former une fonction de perte E (x).

Par exemple, de tels param�tres internes est habituellement utilis� le poids (W) et le d�calage (b) pour calculer la valeur de sortie, jouer un r�le important dans la formation du mod�le de r�seau neuronal.

Lorsque le mod�le de formation efficace et produire des r�sultats pr�cis, les param�tres internes du mod�le a jou� un r�le tr�s important. Voil� pourquoi nous devons optimiser avec une vari�t� de strat�gies et d'algorithmes pour calculer l'impact des param�tres du r�seau et la formation du mod�le de mise � jour et la sortie du mod�le, de fa�on � approcher ou atteindre la valeur optimale.

algorithme d'optimisation est divis� en deux cat�gories:

1. Le premier algorithme d'optimisation de la commande

Cet algorithme utilise la valeur de gradient de chaque param�tre pour maximiser ou minimiser la fonction de perte E (x). Le plus couramment utilis� premier ordre algorithme d'optimisation est une descente de gradient.

Fonction Gradient: d�riv� multivari�e dy / dx expression qui repr�sente le taux de variation instantan� de y par rapport � x. Souvent, dans le but de calculer la d�riv�e d'une fonction multivariable, le d�riv� va �tre substitu� par un gradient et d�riv�es partielles calcul�es en utilisant un gradient. Une diff�rence majeure entre le gradient et la fonction d�riv�e est la formation d'un champ de vecteurs de gradient.

Ainsi, la fonction variable unique, utilis� pour analyser d�riv�, la fonction multivariable � base de gradient est g�n�r�. Plus de d�tails dans cette th�orie plus expliqu�e en d�tail.

2. algorithme d'optimisation de deuxi�me ordre de

algorithme d'optimisation du second ordre utilise la d�riv�e seconde (�galement connu sous le nom m�thode Hessian ) Pour minimiser ou maximiser la fonction de perte. En raison du co�t �lev� de calcul de la d�riv�e seconde, et donc cette m�thode est largement utilis�e.

D�taill�e divers algorithme d'optimisation de r�seau de neurones

descente de gradient

Dans la formation et l'optimisation des syst�mes intelligents, descente de gradient est l'une des technologies les plus importantes et les infrastructures. fonction de descente de gradient est:

En trouvant le contr�le de la variance minimum, mettre � jour les param�tres du mod�le, le mod�le convergent finalement.

La formule pour la mise � jour des param�tres de r�seau: = - � () .J (), o� [eta] est le taux d'apprentissage, () .J () est la fonction de perte J () de la pente.

Ceci est l'algorithme d'optimisation de r�seau de neurones les plus couramment utilis�s.

Aujourd'hui, la descente de gradient est utilis� principalement pour les poids de mod�le de r�seau neuronal � la mise � jour de poids, � savoir, mettre � jour les param�tres du mod�le et de l'ajustement dans une direction pour r�duire au minimum la fonction de perte.

technique r�tropropagation introduit en 2006, permet la formation DNN possible. technique de r�tro-propagation est de calculer le produit du signal d'entr�e pr�c�dent et se propage le poids correspondant, la fonction d'activation est alors appliqu�e � la somme de ces produits. De cette fa�on, le signal d'entr�e en un signal de sortie, est un moyen important pour la mod�lisation d'une fonction non-lin�aire complexe, et pr�sente une fonction d'activation non lin�aire, de telle sorte que le mod�le peut apprendre une fonction de mappage de presque toutes les formes. Ensuite, dans la liaison terrestre inverse de r�seau de propagation d'erreur en corr�lation, en utilisant une descente de gradient mise � droite la valeur de poids, en calculant le gradient de la fonction d'erreur E par rapport au param�tre de pond�ration W, dans la direction oppos�e de la pente des param�tres de poids mises � jour de la fonction de perte.

Figure 1: Poids mise � jour de la direction de gradient oppos� � la direction

La figure 1 montre le processus de mise � jour du vecteur de pond�ration avec la direction de gradient oppos� � l'erreur, dans lequel le gradient de la courbe en forme de U. A noter que, au pouvoir ou trop la valeur de poids W, il y aura une grande erreur, il est n�cessaire de mettre � jour et optimiser le poids, en faire une valeur appropri�e, donc nous avons essay� de trouver une valeur optimale locale dans le sens oppos� au gradient .

Variantes descente de gradient

Le calcul du gradient de descente de gradient de lot traditionnel pour l'ensemble de donn�es, mais ne seront mis � jour une fois, si lent lorsqu'ils traitent avec de grands ensembles de donn�es et difficiles � contr�ler, et m�me conduire � un d�bordement de m�moire.

Poids vitesse de mise � jour du taux d'apprentissage est d�termin�, et peut converger vers l'optimum global, la valeur optimale peut avoir tendance � convexe locale de surface incurv�e non-convexe dans la surface d'erreur.

Utilisez forme standard de descente de gradient par lots Un autre probl�me est qu'il ya une redondance dans le poids formation droite mise � jour de grands ensembles de donn�es.

descente de gradient standard ci-dessus est atteint dans la m�thode de descente de gradient stochastique.

1. algorithme du gradient stochastique (SDG)

descente de gradient stochastique (descente de gradient stochastique, SGD) pour chaque �chantillon de formation de mise � jour des param�tres, chaque ex�cution effectue une mise � jour, et ex�cuter plus rapidement.

= - () x J (; x (i), y (i)), o� x (i) et y (i) pour l'�chantillon de la formation.

Parmi les param�tres mises � jour fr�quentes telles qu'une fonction de perte �lev�e de la variance peut fluctuer � diff�rentes forces. Ceci est en fait une bonne chose parce qu'elle nous aide � d�couvrir de nouveaux et potentiellement meilleur minimum local, et la descente de gradient standard uniquement converge vers un optimum local.

Mais le probl�me de SGD est que, en raison des mises � jour fr�quentes et la volatilit� finira par converger au minimum, et il y aura remise des gaz en raison des fluctuations fr�quentes.

Bien qu'il ait �t� d�montr� que lorsque le taux d'apprentissage diminue progressivement [eta], le mode de convergence de descente de gradient standard avec le m�me mod�le SGD.

Figure 2: Chaque variance de l'�chantillon de formation est mise � jour provoque une forte volatilit� param�tre perte de fonction, nous pourrions �tre incapables d'obtenir la valeur minimale donn�e fonction de perte.

Une autre variante appel�e � descente de gradient � faible volume �, il est possible de r�soudre le probl�me de la variance �lev�e et la convergence de mise � jour des param�tres d'instabilit�.

2. De petites quantit�s de descente de gradient

Pour �viter la descente de gradient norme SGD et les probl�mes existants, une m�thode am�lior�e de descente de gradient en petites quantit�s (Mini lot descente de gradient), car cette m�thode est effectu�e uniquement une fois les mises � jour des �chantillons de formation n de chaque lot.

L'avantage d'utiliser de petites quantit�s de la descente de gradient:

1) �Vous pouvez r�duire le param�tre volatilit� mise � jour, et finalement obtenir la convergence meilleure et plus stable.

2) �Vous pouvez �galement utiliser la derni�re m�thode d'optimisation de la matrice g�n�rique de la biblioth�que d'apprentissage en profondeur, le calcul du gradient de petites quantit�s de donn�es plus efficaces.

3) �En g�n�ral, les petites quantit�s de la taille des �chantillons varie 50-256, peut varier en fonction du probl�me r�el.

4) �Lors de la formation du r�seau de neurones, g�n�ralement choisir petit algorithme de descente de gradient de traitement par lots.

Cette m�thode est parfois appel�e SGD.

En utilisant une descente de gradient et ses variantes face aux d�fis

1. �Difficile de choisir le taux d'apprentissage appropri�. Le taux d'apprentissage est trop faible conduira � la convergence des r�seaux est trop lent et trop peut affecter la convergence des taux d'apprentissage, et entra�ner une perte de fonction de la volatilit� minimale, et m�me divergence gradient.

2. �De plus, le m�me ne vaut pas pour toutes les mises � jour des param�tres de taux d'apprentissage. Si les donn�es de formation sont rares, et la fr�quence caract�ristique est tr�s diff�rente, il ne faut pas les mettre � jour au m�me degr�, mais rarement pour les fonctionnalit�s, vous devez utiliser un taux d'actualisation plus grand.

3. �Un autre d�fi majeur dans le r�seau de neurones, ce qui minimise la fonction d'erreur est non-convexe pour �viter d'engager la pluralit� d'autres minima locaux. En effet, le probl�me ne r�sulte pas d'une valeur minimale locale, mais du point selle, � savoir une dimension et une autre dimension des points vers le bas inclin�e vers le haut. Ces points de selle sont g�n�ralement la m�me valeur d'erreur entour�e d'avion, ce qui le rend difficile d�sorb�e algorithme SGD, car la fin du gradient � z�ro dans toutes les dimensions.

Optimiser davantage la descente de gradient

Maintenant, nous devons discuter plus optimis�s pour diff�rents algorithme de descente de gradient.

1. Momentum

La m�thode de haute variance SGD pour que l'oscillation est difficile de stabiliser la convergence des r�seaux, afin que les chercheurs ont propos� une technique appel�e impulsion (Momentum) de En optimisant la formation li�e � la direction d'oscillation et la direction d'affaiblissement sans rapport acc�l�rer la formation de SGD . En d'autres termes, cette nouvelle approche est les composantes du vecteur de mise � jour des �tapes pr�c�dentes de la 'au vecteur de mise � jour en cours.

V (t) = V (t-1) + () .J ()

Enfin = -V (t) pour mettre � jour les param�tres.

Momentum est g�n�ralement r�gl� � 0,9 ou une valeur similaire.

l'�lan ici et dynamique en physique classique est le m�me, il suffit de jeter un ballon de la montagne � l'�lan Collect dans une chute, la vitesse croissante de la balle.

Dans les param�tres du processus de mise � jour, le principe est similaire:

1) �Le r�seau peut faire mieux et plus la convergence stable;

2) �R�duire le processus d'oscillation.

Quand il est orient� � la direction r�elle de d�placement du gradient, l'augmentation de quantit� de mouvement gamma], lorsque la direction r�elle de d�placement oppos� au gradient, gamma] diminue. Ce moyen d'approche que l'�lan est que les param�tres des �chantillons pertinents mis � jour, ce qui r�duit la mise � jour des param�tres inutiles, entra�nant une convergence plus rapide et stable, mais aussi de r�duire le processus d'oscillation.

2. Proc�d� d'acc�l�ration de gradient Nesterov

Fellow nomm� Iouri Nesterov, qu'il existe une m�thode dynamique de probl�me:

Si un ballon qui roule sur une colline, est tomb� � l'aveuglette le long de la pente, ce qui est tout � fait inappropri�. Une balle plus intelligent devrait noter qu'il va aller, alors quand inclin� vers le haut � nouveau si la balle d�c�l�re.

En fait, lorsque la balle a atteint le point le plus bas de la courbe, l'�lan est assez �lev�. En raison de la forte dynamique qui pourrait conduire � manquer compl�tement son minimum, de sorte que la balle ne sait pas quand d�c�l�rer, il continue � se d�placer vers le haut.

Yurii Nesterov a publi� un document sur la dynamique pour r�soudre le probl�me en 1983, par cons�quent, nous appelons cette m�thode m�thode d'acc�l�ration gradient Nestrov.

Dans ce processus, il a propos� d'�tre grand saut conform�ment � la dynamique pr�c�dente, puis calculer la correction de gradient, r�alisant ainsi des mises � jour des param�tres. Cette m�thode de pr�-mise � jour peut sensiblement emp�cher l'oscillation, ne manquez pas le minimum, et la mise � jour des param�tres plus sensibles.

Nesterov m�thode d'acc�l�ration de gradient (NAG) est un proc�d� pour conf�rer une capacit� de mouvement � long terme � pr�dire, pour modifier le param�tre en utilisant une dur�e d'impulsion V (t-1). En calculant -V (t-1), pour donner une approximation du param�tre de position suivante, o� le param�tre est une id�e approximative. Par cons�quent, Nous ne en calculant une valeur actuelle du param�tre gradient , mais en position sensiblement futurs param�tres pertinents pour pr�dire efficacement l'avenir :

V (t) = V (t-1) + () J (-V (t-1)), alors = -V (t) pour mettre � jour les param�tres.

Maintenant, nous adaptons le r�seau en mettant � jour la pente de la fonction d'erreur, et � son tour acc�l�rer le SGD, et peut �tre ajust�e en fonction de l'importance de chaque param�tre met � jour le param�tre correspondant � la mise � jour plus ou PERFORM moindre ampleur.

3. Proc�d� Adagrad

Proc�d� Adagrad est ajust�e par un param�tres et les param�tres des mises � jour fr�quentes minor param�tre taux d'apprentissage appropri�, est mis � jour sensiblement clairsem�e. Ainsi, le proc�d� de traitement de donn�es de Adagrad est tr�s appropri�.

A l'�tape de temps, Adagrad gradients pass�s pour chaque param�tre bas� sur les diff�rents set calcul� pour param�tre diff�rent taux d'apprentissage .

Auparavant, chaque param�tre (i) utiliser le m�me taux d'apprentissage, chacun sur tous les param�tres [th�ta] sont mis � jour. A chaque pas de temps t, M�thodes Adagrad pour chaque param�tre thetav diff�rents taux d'apprentissage, la mise � jour des param�tres correspondants, et vectorisation. Pour simplifier, nous avons des param�tres � l'instant t (i) est r�gl� sur la pente de la fonction de perte g (t, i).

Figure 3: formule de mise � jour des param�tres

Adagrad � chaque pas de temps est en accord avec les param�tres pr�c�dents, le gradient calcul�, en modifiant les param�tres correspondants pour chacun des taux d'apprentissage (i).

Le principal avantage de l'approche Adagrad est pas n�cessaire de r�gler manuellement la vitesse d'apprentissage. La plupart des param�tres utilis�s la valeur par d�faut 0,01 et reste inchang�.

Le principal inconv�nient de l'approche Adagrad est toujours de r�duire le taux d'apprentissage et la pourriture.

Parce que chaque terme suppl�mentaire est positif, le carr� de la pluralit� accumul�e des valeurs de gradient dans le d�nominateur, de sorte que la somme cumul�e de cro�tre au cours de la formation. Cela conduit � son tour � une diminution de taux d'apprentissage, devient tr�s petit nombre de grandeur, le mod�le arr�ter compl�tement l'apprentissage, arr�t obtenir des connaissances nouvelles et suppl�mentaires.

Parce que de plus en plus petite vitesse d'apprentissage, la capacit� d'apprentissage du mod�le diminue rapidement, et la convergence est tr�s lente, il faut une longue formation et d'apprentissage, � savoir vitesse d'apprentissage inf�rieure .

Un autre appel� l'algorithme Adadelta am�liore le taux d'apprentissage continue de probl�mes se d�sint�grer.

M�thode 4. AdaDelta

Cette m�thode est une extension d'un AdaGrad, elle tend � r�soudre leur d�clin du taux d'apprentissage. Adadelta pas tous accumul�s avant le carr� du gradient, le gradient jusqu'� ce que la fen�tre accumul� mais limit�e � une certaine taille fixe w.

W invalide pr�c�demment stock� gradient de la place avant que les diff�rents gradients et est r�cursivement d�fini comme �tant le gradient du carr� de tous att�nuation moyenne pr�c�dente. Comme la dynamique semblable fraction , Eg� moyenne mobile � l'instant t, et ne d�pend que de la valeur moyenne pr�c�dente du gradient de courant.

Eg� = .Eg� + (1-) .g� (t), o� gamma] est r�gl� sur une valeur proche de la quantit� de mouvement, d'environ 0,9.

(t) = - g (t, i).

(t + 1) = (t) + (t)

Figure 4: La formule finale de mise � jour de param�tres

Une autre m�thode de AdaDelta avantage, il a �t� n�cessaire de pr�voir un taux d'apprentissage par d�faut.

L'am�lioration a �t� compl�t�e

1) �Calculer des taux d'apprentissage pour chaque param�tre;

2) On a aussi calcul� l'�lan dynamique � long terme;

3) �Pr�venir L'apprentissage carie taux ou gradient disparaissent Et d'autres probl�mes.

Que peut-on faire pour am�liorer?

le taux d'apprentissage par correspondance est calcul� pour chaque param�tre dans la m�thode pr�c�dente, mais pourquoi ne pas calcul� pour chaque param�tre correspondant au changement de dynamique et magasin ind�pendant il? Ce sont les am�liorations point d'Adam algorithme propos�.

algorithme Adam

algorithme Adam Cette m�thode d'estimation du temps d'adaptation (Moment Adaptive estimation) , Peut �tre calcul� pour chaque param�tre du taux d'apprentissage adaptatif. Cette m�thode non seulement stocke le gradient carr� moyenne AdaDelta pr�c�dent de la d�croissance exponentielle, mais maintient la valeur moyenne pr�c�dente un gradient de la d�croissance exponentielle M (t), qui est similaire � l'�lan:

M (t) est la valeur moyenne du premier gradient de moment, une seconde variance de temps de non-central V (t) est le gradient.

Figure 5: Les deux �quations pour le premier moment de gradient et un deuxi�me moyen de temps de variance

La formule finale de mise � jour de param�tres est la suivante:

Figure 6: La formule finale de mise � jour de param�tres

Ce qui, 1 est fix� � 0,9, 2 est r�gl� sur 0,9999, est d�fini 10-8.

Dans les applications pratiques, la m�thode Adam � bon escient. Par rapport � d'autres algorithme de taux d'apprentissage adaptatif, la convergence est un apprentissage plus rapide, plus efficace, mais aussi d'autres techniques d'optimisation pour corriger les probl�mes, tels que le taux d'apprentissage disparaissent, les param�tres de convergence lente ou pour r�sultat la perte de mise � jour haute variance les fluctuations de fonction et d'autres questions.

Visualisation de l'algorithme d'optimisation

Figure 8: optimisation SGD du point selle

Comme on peut le voir l'animation ci-dessus, l'algorithme adaptatif peut converger rapidement et trouver rapidement la direction cible de mise � jour correcte des param�tres et le SGD standard, NAG et les m�thodes de momentum telle convergence est lente et difficile de trouver la bonne direction.

conclusion

Quelle optimiseur devrions-nous utiliser?

Dans la construction du mod�le de r�seau neuronal, l'optimiseur s�lectionne l'optimum pour la convergence d'apprentissage rapide et correct, tout en ajustant les param�tres internes, la port�e maximale pour minimiser la fonction de perte.

Adam bons r�sultats dans des applications pratiques, plus que toute autre technologie d'adaptation.

Si l'ensemble de donn�es d'entr�e sont rares, SGD, NAG et les m�thodes de momentum peut ne pas fonctionner. Donc, pour un ensemble de donn�es rares, en utilisant une m�thode devrait �tre le taux d'apprentissage adaptatif, et d'autres avantages sans ajustement du taux d'apprentissage humain, il est possible d'obtenir les param�tres par d�faut de la valeur optimale.

Si vous voulez faire un mod�le de r�seau profond formation r�seau de neurones convergence rapide ou construit plus complexe, vous devez utiliser Adam ou toute autre m�thode du taux d'apprentissage adaptatif Parce que l'effet r�el de ces m�thodes est mieux.

J'esp�re que vous passez cet article, une bonne compr�hension des diff�rences entre les caract�ristiques des diff�rents algorithmes d'optimisation.

Liens connexes:

algorithme d'optimisation du second ordre:

https://web.stanford.edu/class/msande311/lecture13.pdf

Nesterov m�thode d'acc�l�ration de gradient: http: //cs231n.github.io/neural-networks-3/

[Fin]

Un avis

Qubit �tant mis en place un groupe de la technologie de conduite automatique, pilote automatique de recherche pour des domaines connexes dans les ing�nieurs de l'�cole ou de premi�re ligne. Bienvenue � ajouter qubits micro lettre (qbitbot), notes "pilote automatique" application ~ Jia Ruha

recrutement

Qubits recrute des �diteurs et des journalistes, des op�rations, des produits et d'autres positions, bas� � Zhongguancun de Beijing. D�tails, le num�ro de l'interface de dialogue public, r�pond: � Le recrutement. �

Route de la soie

Apprenez � conna�tre la Chine

Lire une vari�t� d'algorithmes d'optimisation de texte des r�seaux de neurones: Adam vers le bas de la m�thode de d�grad�

Qu'est-ce que l'optimisation?

D�taill�e divers algorithme d'optimisation de r�seau de neurones

conclusion

Liens connexes: