10 + gradient algorithme d'optimisation descente tricheur feuille

Titre original | 10 Gradient Descent Optimisation Algorithmes + Cheat Sheet

Auteur | Raimi Karim Vers la science des donn�es

Traducteur | Stephen de deux Gouzi (Shenyang Universit� de technologie chimique), intelLigenJ (Ing�nieur algorithme), vendredi, Wright Norton, un litre mer

Cet article Editeur: poissons Wang

Texte anglais: https: //towardsdatascience.com/10-gradient-descent-optimisation-algorithms-86989510b5e9

Regarder fonction gradient d'optimisation de descente est une valeur minimum, souvent utilis�e pour mettre � jour les coefficients de pond�ration dans le processus d'apprentissage back-propagation r�seau de neurones dans le mod�le de profondeur.

Dans cet article, je vais r�sumer le cadre plus populaire d'apprentissage commun dans l'algorithme de descente de gradient de profondeur (comme tensorflow, Keras, PyTorch, Caffe). Le but de cet article est de faciliter la compr�hension et la ma�trise du contenu, car en plus de r�sumer pas beaucoup, mais il peut servir de votre base pour commencer � partir de z�ro � feuille de triche. �

Dans un probl�me de r�gression lin�aire, j'ai gradient atteint SGD chut�, l'�lan, Nesterov, RMSprop et Adam, obtenir le code (JavaScript)

Quel algorithme gradient descente fonction d'optimisation?

Par algorithme d'optimisation descente de gradient peut fonctionner dans les trois principaux aspects suivants:

1, le taux d'apprentissage composant modifiant, [alpha], ou

2, la modification de la composante de gradient L / w

3, ou les deux

Regardons l'�quation suivante 1:

Diverses quantit�s d'algorithme du gradient stochastique: Equation 1

taux d'apprentissage vs principale diff�rence optimisation descente de gradient ordonnanceur est que l'optimisation de descente de gradient laisse le taux d'apprentissage est multipli�e par un facteur qui est une fonction du gradient, afin d'ajuster le taux du composant d'apprentissage, toutefois, le taux d'apprentissage est multipli� par le programmateur de sorte que la constante de taux d'apprentissage est un facteur de constante ou une fonction de la grille de temps, afin de mettre � jour le taux d'apprentissage.

La premi�re m�thode principalement par un facteur compris entre 0 et 1 de l'apprentissage (taux d'apprentissage) de sorte que le taux �lev� d'apprentissage est r�duite (par exemple RMSprop). Le second proc�d� utilisant g�n�ralement un gradient de moyenne glissante (gradient) (�galement d�nomm� � momentum �) plut�t que pur direction de descente de gradient est d�termin�e. Un troisi�me proc�d� est une combinaison des deux, comme Adam et AMSGrad.

Fig.2: tous les types d'algorithme d'optimisation de descente de gradient, ann�e de publication et ses id�es de base utilis�es.

La figure 3 repr�sente un top-down variantes de la fa�on dont ces types d'algorithmes d'optimisation Adam ont �volu� � partir simple descente de gradient pur (SGD) est. SGD commen�aient � �voluer dans deux directions, l'une est AdaGrad, principalement � ajuster le taux d'apprentissage (taux d'apprentissage). L'autre est Momentum, les principaux composants du gradient de r�glage (gradient) de (traduction: ici en arri�re texte �criture). Avec l'�tape de l'�volution par �tape, Momentum et l'int�gration RMSprop, � Adam � (Adam) est n�. Vous pouvez penser que j'ai objection � cette organisation, mais j'ai �t� si compris � l'heure actuelle.

Fig.3: Figure types d'algorithme d'optimisation �volutive (GIST)

notation

t - le nombre d'it�rations
w - le poids droit et nous avons besoin de mettre � jour les param�tres
- taux d'apprentissage
L / w - L (fonction de la perte) de la pente de w
J'unifi� le papier �tait apparu en lettres et symboles grecs, afin que nous puissions �tre unis perspective � �volutive � ces algorithmes d'optimisation

1. algorithme du gradient stochastique (Stochastic Gradient Descente)

La plupart algorithme primitif algorithme du gradient stochastique bas�e principalement sur le courant gradient L / w taux d'apprentissage est multipli�e par un coefficient de mettre � jour le mod�le des poids w.

2. algorithme de Momentum (Momentum)

algorithme de Momentum (gradient moyenne mobile exponentielle, Polyak, 1964) avec un gradient plut�t que le gradient de courant d'impulsion de w est mis � jour. Dans un article ult�rieur, vous verrez la moyenne mobile exponentielle comme un moyen de mettre � jour l'�lan presque devenu une norme dans l'industrie.

parmi

Et V 0 est initialis�. sera g�n�ralement r�gl� � 0,9.

Il est int�ressant de noter que de nombreux articles en r�f�rence � l'algorithme Momemtum utilise la Ning Qian, 1999 article. Mais la source originale de l'algorithme est Sutskever et al. La dynamique de l'algorithme classique en 1964 a �t� pr�sent� Polyak, donc Polyak a �galement cit� ci-dessus article. (James Merci de remarquer que sur)

descente de gradient d'acc�l�ration 3.Nesterov (NAG)

Apr�s Polyak propos� l'�lan de la m�thode (jeu de mots: Polyak momentum Masamori), Nesterov acc�l�r�e en utilisant une m�thode de descente de gradient similaire � la m�thode de mise � jour �galement mises en uvre (Sutskever et al, 2013.). Cette m�thode de mise � jour du V, � savoir la moyenne mobile exponentielle de la me appel projet�e gradient.

parmi

Et V est initialis� � z�ro.

Le second est la derni�re �quation d'un gradient de projection. Cette valeur peut �tre � pas en avant � est obtenue (�quation 4) � l'aide de la vitesse pr�c�dente. Cela signifie que pour le t pas de temps, nous devons effectuer � la propagation avant l'ex�cution finale avant une autre r�tropropagation. Cette �tape est:

1. Utilisation de la vitesse pr�c�dente poids actuel w poids de projection mis � jour w *

(�quation 4)

2. Utiliser une saillie avant de se propager le calcul du poids

3. Pour obtenir un gradient projet� L / w *

4. Calculer sur le V et w

Par d�faut commun:

= 0,9

S'il vous pla�t noter que le papier de descente de gradient d'acc�l�ration Nesterov d'origine (Nesterov, 1983) n'est pas sur la descente de gradient stochastique, il n'y a pas d'�quation de descente de gradient clair. Ainsi, une publication de r�f�rence plus appropri�es Sutskever et al mentionn�s ci-dessus. En 2013, il d�crit l'utilisation de NAG dans la descente de gradient stochastique. (Encore une fois, je tiens � remercier James commentaires sur HackerNews point cela.)

4. L'algorithme de taux d'apprentissage adaptatif (Adagrad)

algorithme du gradient adaptatif, aussi connu comme algorithme AdaGrad (Duchi et al, 2011), pour �tudier la composante de taux d'apprentissage par le taux d'apprentissage divis� par la racine carr�e de S, o� S est le gradient du carr� de la somme cumulative actuelle et pass�e (par exemple, jusqu'� l'instant t). On notera que le m�me algorithme et SGD, l'algorithme de taux d'apprentissage adaptatif composant gradient reste inchang�.

Parmi eux,

La valeur initiale est r�gl�e sur 0 et S.

S'il vous pla�t noter que cette ajout� dans le d�nominateur. Keras appel� facteur flou, ce qui est une petite valeurs � virgule flottante pour assurer que nous atteindrons jamais que z�ro.

La valeur par d�faut (� partir de Keras):

= 0,01
= 10

L'algorithme RMS-passe (RMSprop)

RMS algorithme de propagation, �galement connu comme algorithme RMSprop (Hinton et al., 2012), est un autre taux d'am�lioration des algorithmes d'apprentissage adaptatif sur l'algorithme AdaGrad. Il est calcul� en utilisant une moyenne pond�r�e de mani�re exponentielle, au lieu d'utiliser le gradient au carr� et accumul�.

Parmi eux,

La valeur initiale est r�gl�e sur 0 et S.

La valeur par d�faut (� partir de Keras):

= 0,001
= 0,9 (l'auteur recommand�)
= 10

6. L'algorithme de delta adaptatif (Adadelta)

Et m�me, Adadelta (Zeiler, 2012) est de RMSprop un algorithme adaptatif pour le taux d'am�lioration de l'apprentissage bas� sur l'algorithme AdaGrad. Adadelta doit �tre abr�viation � delta adaptative �, dans lequel, delta repr�sente la diff�rence entre le poids actuel, et la r�-actualisation des poids.

Adadelta RMSprop algorithme de diff�rence et l'algorithme est que l'algorithme de delta Adadelta utilis�e moyenne pond�r�e de mani�re exponentielle pour remplacer le D initial du taux d'apprentissage param�tre algorithme Adadelta.

Parmi eux,

D et S et la valeur initiale est fix�e � 0. En outre,

La valeur par d�faut (� partir de Keras):

= 0,95
= 10

7. algorithme adaptatif d'estimation (ADAM)

algorithme d'estimation pour l'adaptation, aussi connu comme algorithme Adam (Kingma et Ba, 2014), est une combinaison de l'�lan et de l'algorithme utilis� RMSprop. il par

(I) en utilisant un gradient composant V, la moyenne du gradient exponentiel en mouvement (par exemple, quantit� de mouvement), et

(Ii) divis� par la racine carr�e du taux d'apprentissage S, gradient quadratique moyenne mobile exponentielle (comme dans le RMSprop) composant de taux d'apprentissage pour la fonction.

parmi

D�viation est corrig� et il

La valeur initiale est r�gl�e sur 0 V et S.

Les auteurs ont recommand� des valeurs par d�faut:

= 0,001
= 0,9
= 0,999
= 10

8. Adamax algorithme

Adamax (Kingma et Ba, 2015) en utilisant une gamme infinie (d'o� � max �) par Adam auteur Algorithm ont effectu� un algorithme adapt� son optimiseur. V est la moyenne pond�r�e de l'indice de gradient, S p est une moyenne pond�r�e de fa�on exponentielle de la derni�re �tape, similaire � la fonction maximale, comme suit (voir le document de preuve de convergence).

parmi

L'�cart de l'amendement V, et

La valeur initiale est r�gl�e sur 0 V et S.

Les auteurs ont recommand� des valeurs par d�faut:

= 0,002
= 0,9
= 0,999

9. Naadam algorithme

Nadam par le terme (Dozat, 2015) et est le nom d'Adam optimiseur �pissage Nesterov. composants Nesterov algorithme Naadam produit une contrainte plus forte sur le taux d'apprentissage, alors que la mise � jour du gradient ont �galement un impact plus direct. En g�n�ral, le montant du lecteur sur lequel vous souhaitez utiliser RMSprop, ou Adam, la plupart d'entre eux peut �tre utilis� Naadam obtenir de meilleurs r�sultats.

Adam optimiseur peut aussi �tre �crit:

Equation 5: optimiseur Adam poids lourds update

Nesterov Nadam en utilisant l'�quation ci-dessus V_hat la fois pr�c�dente pour remplacer le V_hat de l'heure actuelle, pour r�aliser la mise � jour d'avance � l'�tape Gradient:

parmi

et il

V S et une valeur initiale de 0 est r�gl�.

La valeur par d�faut (� partir de Keras):

= 0,002
= 0,9
= 0,999
= 10

10. algorithme AMSGrad

Une autre variante est AMSGrad Adam algorithme Algorithm (Reddi et al., 2018). L'algorithme revisite Adam composantes de taux d'apprentissage adaptatif et apporter des modifications � faire en sorte que le courant S est toujours sup�rieure � l'�tape de temps pr�c�dent.

parmi

en outre

V S et une valeur initiale de 0 est r�gl�.

La valeur par d�faut (� partir de Keras):

= 0,001
= 0,9
= 0,999
= 10

intuition

Je voudrais partager avec vous une partie de la vision intuitive, pourquoi optimiseur de descente de gradient � utiliser une partie de l'indice de gradient moyenne mobile (EMA), une partie du taux d'apprentissage utilisant la racine carr�e moyenne (RMS).

Pourquoi prendre l'indice de gradient moyenne mobile?

Nous devons utiliser une certaine valeur pour mettre � jour les poids. Notre seule une partie de celui-ci est la valeur actuelle du gradient, donc nous allons l'utiliser pour mettre � jour les poids.

Mais ne prendre que la valeur du gradient de courant est pas assez bon. Nous esp�rons que nos mises � jour sont (pour le mod�le, il est) � une meilleure orientation. � Consid�rons (chaque mise � jour) la valeur de gradient avant de l'inclure.

La combinaison de gradient valeur de gradient pass� et actuel des informations d'une mani�re que nous pouvons tous en moyenne simple gradient pass� et actuel. Mais cela signifie que le poids lourd de chaque gradient sont �gaux. Ceci est contraire � l'intuition, parce que dans l'espace, si nous sommes proches du minimum, les valeurs les plus r�centes de gradient peut fournir des informations plus efficaces.

Par cons�quent, la m�thode la plus s�re est d'utiliser la moyenne mobile exponentielle, qui p�se la derni�re valeur de gradient de poids (importance) sup�rieure � la valeur pr�c�dente.

Pourquoi devrait le taux d'apprentissage divis� par le gradient RMS de celui-ci?

Le but est d'ajuster le taux d'apprentissage. Quels ajustements pour r�pondre? La r�ponse est d�grad�. Nous devons nous assurer que, lorsque le gradient est important, nous voulons mettre � jour de fa�on appropri�e r�duite (sinon une grande valeur en soustrayant le poids actuel!)

Pour atteindre cet effet, que le taux d'apprentissage divis� par le gradient de courant pour obtenir un taux d'apprentissage d'ajustement.

Rappelez-vous, les ingr�dients de taux d'apprentissage doit toujours �tre positif (parce que la composante de taux d'apprentissage, multipli� par le composant de gradient, ce dernier doit avoir le m�me signe). Afin de vous assurer qu'il est toujours positif, nous pouvons le prendre � sa valeur absolue ou carr�e. Lorsque nous prenons le gradient actuel de la place, vous pouvez alors prendre la racine carr�e � Annuler � cette place.

Mais, comme l'�lan des id�es, comme en utilisant uniquement la valeur actuelle du gradient est pas assez bon. Nous esp�rons que notre formation (chaque) mise � jour de mise � jour peut mieux guider (mod�le). Par cons�quent, nous avons �galement besoin d'utiliser la valeur gradient avant. Comme indiqu� plus haut, nous prenons la derni�re pente moyenne mobile exponentielle ( �carr�e moyenne), puis en prenant la racine carr�e (la racine), � savoir � racine carr�e moyenne �(RMS). En outre AdaGrad (gradient de somme cumulative du carr�), tous optimiseur de ce document permet d'optimiser la portion � taux d'apprentissage.

Cheat Sheet

(points ci-dessus)

S'il y a quelque chose de mal � cela, ou si le contenu de cet article peut �tre encore am�lior�e, s'il vous pla�t me contacter! ?

r�f�rence

Vue d'ensemble de l'algorithme d'optimisation de descente de gradient (ruder.io)

Pourquoi Momentum fonctionne vraiment Ceci est une histoire populaire sur la dynamique: descente de gradient est un homme qui marche dans les montagnes.

Merci Ren Jie, Derek, William Tjhi, Chan Kai, Serene et James pens�es sur cet article, suggestions et corrections.

Je veux continuer � voir les articles liens et r�f�rences connexes? Lei Feng Lei Feng Lei r�seau de r�seau de r�seau Feng

Cliquez sur [10 + gradient descente algorithme d'optimisation] pour acc�der � la feuille de triche:

programmes gratuits amis - � fun Python: de l'exploration de donn�es � une �tude approfondie � Le cours couvre tout de Python d'introduction � CV, la pratique de la PNL, etc., est tr�s bon apprentissage en profondeur des cours d'introduction, pour un total section 932 heures, avec une longueur totale d'environ � 13 heures. . AI Yanxishe ce cours maintenant libre et ouvert � la communaut� pour authentifier l'utilisateur, tant que vous remplissez le � Python � dans les remarques bo�te lors de la certification, �tre certifi� par, vous pouvez obtenir l'autorisation de d�bloquer tous les cours. Vous avez tout Oh ~

page Cours: https: //ai.yanxishe.com/page/domesticCourse/37

Authentification: https: //ai.yanxishe.com/page/blogDetail/11609

Route de la soie

Apprenez � conna�tre la Chine

10 + gradient algorithme d'optimisation descente tricheur feuille

Quel algorithme gradient descente fonction d'optimisation?

notation

1. algorithme du gradient stochastique (Stochastic Gradient Descente)

2. algorithme de Momentum (Momentum)

descente de gradient d'acc�l�ration 3.Nesterov (NAG)

4. L'algorithme de taux d'apprentissage adaptatif (Adagrad)

L'algorithme RMS-passe (RMSprop)

6. L'algorithme de delta adaptatif (Adadelta)

7. algorithme adaptatif d'estimation (ADAM)

8. Adamax algorithme

9. Naadam algorithme

10. algorithme AMSGrad

intuition

Cheat Sheet

r�f�rence