Sebastian origine Ruder

Wang r�cemment compil� � partir ruder.io

Qubit produit | Num�ro public QbitAI

La profondeur cible de base de l'apprentissage, est de trouver la vitesse et la fiabilit� d'un minimum de g�n�ralisation, le mod�le est aussi un point de plus.

descente de gradient stochastique (SGD) La m�thode propos�e en 1951 par Robbins et Monro , il a �t� 60 ans d'histoire. Dans l'�tude actuelle de la recherche approfondie, cette approche est critique, est g�n�ralement utilis� dans le processus de retour de propagation.

Ces derni�res ann�es, les chercheurs ont propos� un certain nombre de nouveaux algorithmes d'optimisation, utilise une �quation diff�rente pour mettre � jour les param�tres du mod�le. 2015 Kingma et Ba propos� m�thodes Adam , il peut �tre consid�r� comme l'un de l'algorithme d'optimisation les plus couramment utilis�s. Cela sugg�re que, du point de vue des travailleurs, l'apprentissage machine, la meilleure fa�on d'apprendre la profondeur de l'optimisation restent en grande partie les m�mes.

Cependant, il y a beaucoup de nouvelles fa�ons d'augmenter cette ann�e, ce qui peut avoir une incidence sur la m�thode suivante d'optimisation du mod�le utilis�. Dans cet article, Ruder de son point de vue, a pr�sent� le travail et les directions possibles pour la m�thode d'optimisation apprentissage en profondeur �difiante. En lisant cet article, vous connaissez avec SGD et la m�thode d'adaptation des taux d'apprentissage, comme les m�thodes Adam.

Am�lioration des m�thodes Adam

Bien que, comme Adam une telle m�thode du taux d'apprentissage adaptatif utilise une gamme tr�s large, cependant, la reconnaissance de l'objet et MT et d'autres travaux de recherche, de nombreux r�sultats de la recherche de pointe utilisent encore des m�thodes traditionnelles pour conduire le montant de SGD.

Certaines des raisons donn�es par Wilson et al. Dans la derni�re �tude pour expliquer, par rapport � la quantit� de m�thode d'entra�nement SGD, le taux d'apprentissage adaptatif convergera � une autre m�thode de la valeur minimale, et les r�sultats ne sont g�n�ralement pas id�al. D�riv� de l'exp�rience, la reconnaissance d'objets, et le caract�re niveau des t�ches langage de mod�lisation telles que l'analyse de la syntaxe, la valeur minimale obtenue par la m�thode d'apprentissage adaptatif est g�n�ralement pire que la valeur minimum de quantit� d'entra�nement obtenue par la m�thode SGD. Cela semble contre-intuitif, parce que la m�thode Adam a un bon m�canisme de convergence, et son taux d'apprentissage adaptatif remplirait mieux que la m�thode traditionnelle de SGD. Cependant, Adam et autre m�thode du taux d'apprentissage adaptatif a aussi des limites.

D�couplage poids d'affaiblissement

Dans certains jeux de donn�es, Adam m�thode de g�n�ralisation d'une diff�rence que le montant de SGD pour promouvoir la cause possible att�nuation du poids (weight decay) . Pond�re les probl�mes d'att�nuation couramment utilis�s pour la classification d'image, � savoir, apr�s chaque mise � jour des param�tres, le taux d'att�nuation en poids multipli�e par le t en poids, dans lequel le taux d'att�nuation d'un peu moins de 1 Wt:

Cela emp�che le poids devient trop importante. Ainsi, le poids d'att�nuation peut �tre comprise comme un terme de r�gularisation L2, le taux d'att�nuation en fonction du poids appliqu� sur la perte en poids:

m�thode de r�duction de poids est g�n�ralement utilis� comme terme de r�gularisation, soit modifier directement le gradient, fonction habituellement appel�e dans plusieurs biblioth�ques de r�seau de neurones. Adam et �quations impulsion de mise � jour algorithme, l'autre par le m�me �l�ment est multipli� par les valeurs de gradient de modification d'att�nuation, les poids affaiblissement L2 r�gularisation pas. Ainsi, Loshchilov Hutter et que � d�couplage carie poids � , le m�me que d�fini � l'origine, mis � jour apr�s chaque gradient de mise � jour des param�tres par cette m�thode en 2017.

Et la quantit� de poids d'entra�nement proc�d� d'att�nuation SGD (SGDW) mise � jour de gradient comme suit:

Dans lequel, [eta] est le taux d'apprentissage, le troisi�me terme est le d�couplage de la deuxi�me valeur de poids �quation d'att�nuation. De m�me, nous obtenons des m�thodes Adam (AdamW) des valeurs d'att�nuation pond�r�es:

Dans lequel, mt et mt est une premi�re erreur de synchronisation et son estimation de correction, et vt vt second �cart temporel et l'�cart est corrig� estimation, beta1 et 2 sont le taux de d�croissance correspondant, et la m�me valeur de poids est ajout�e terme d'amortissement. Les auteurs disent que cette approche am�liore consid�rablement la capacit� de la m�thode Adam de g�n�ralisation, et comparable � la quantit� des travaux de m�thode conduit SGD sur l'ensemble des donn�es de classification d'images.

De plus, le processus de s�lection et il p�se le taux d'apprentissage de la d�sint�gration du processus de s�lection sont s�par�s, ce qui peut mieux atteindre l'optimisation ultra-param�tre, car le param�tre ne d�pend ultra-moderne plus les uns des autres. Il est �galement � mettre en uvre s�par�ment de l'att�nuation du processus de mise en uvre de l'optimisation du poids, ce qui contribue � construire un code plus compact et r�utilisable, r�f�rence fast.ai mise en uvre AdamW / SGDW (https://github.com/fastai/fastai/ traction / 46 / fichiers).

moyenne mobile exponentielle fixe

Des �tudes r�centes (Dozat et Manning, 2017 , et Lain� Aila, 2017 ) valeurs trouv�es exp�rimentalement diminuent 2 affectent la contribution de la moyenne mobile exponentielle de la derni�re m�thode des moindres carr�s gradient d'Adam. En g�n�ral, la valeur par d�faut est 0,999 2, apr�s avoir d�fini ou 0,990,9, de meilleurs r�sultats dans diff�rentes t�ches, ce qui sugg�re qu'il peut y avoir des probl�mes moyenne mobile exponentielle.

IPSC 2018 est en cours d'examen dans un article sur la convergence d'Adam et (https://openreview.net/forum?id=ryQu7f-RZ) Au-del� �tudi� le probl�me, en notant la moyenne mobile exponentielle du gradient au carr� est pass� l'apprentissage adaptatif une autre raison de la g�n�ralisation de la m�thode de faible taux. Le proc�d� d'adaptation de taux d'apprentissage de base doit �tre mise � jour d'une moyenne mobile exponentielle de param�tre de gradient au carr� pass�, par exemple Adadelta, RMSprop et Adam. L'indice moyen de la contribution de la recherche, de la motivation de cette id�e est tr�s bonne, il peut emp�cher le taux d'apprentissage que la formation devient extr�mement faible, ce qui est la m�thode Adagrad des d�fauts critiques. Cependant, la pente de la m�moire � court terme dans un panier � linge dans d'autres cas.

Lorsque la m�thode Adam converge vers une solution sous-optimale, nous avons observ� un certain nombre de petits lots d'�chantillons a contribu� gradient de l'information importante et efficace, mais cela arrive rarement, l'indice en moyenne r�duire leur impact, ce qui dans le mod�le de faible convergence . Auteur donne d'un simple probl�me d'optimisation convexe, nous pouvons voir les m�thodes Adam ce ph�nom�ne existe aussi.

Les auteurs proposent un nouvel algorithme AMSGrad pour r�soudre ce probl�me, il utilise le gradient maximum du carr� du pass� aux param�tres de mise � jour, plut�t que l'indice moyen pr�c�dent. Proc�d� de mise � jour AMSGrad suit le proc�d� ci-dessus sans estimation de correction de d�viation:

Les exp�riences montrent que, sur un petit ensemble de donn�es et ensemble de donn�es 10-ICRA, cette m�thode est mieux que la performance de la m�thode Adam.

Ajuster le taux d'apprentissage

Dans de nombreux cas, on n'a pas besoin d'am�liorer et d'adapter la structure du mod�le, mais les param�tres ultra-ajustement. Une partie des recherches les plus r�centes dans le spectacle de mod�lisation linguistique par rapport � des mod�les plus complexes, LSTM de r�glage des param�tres et les param�tres de r�gularisation peut obtenir les performances les plus avanc�es.

Dans l'optimisation de l'�tude approfondie, un param�tre super important est le taux d'apprentissage . En effet, dans la m�thode SGD, la n�cessit� de construire un protocole de recuit de taux d'apprentissage appropri� pour obtenir un bon minimum de convergence. On pourrait penser qu'une telle m�thode comme le taux d'apprentissage adaptatif d'Adam, diff�rents taux d'apprentissage est plus robuste, car ces m�thodes sont le taux d'apprentissage auto-renouvellement. Cependant, m�me avec ces m�thodes, bon taux d'apprentissage et le meilleur taux d'apprentissage peut varier consid�rablement (Andrej Karpathy compte v�rifi� dit que le meilleur taux d'apprentissage �tait 3e-4 https://twitter.com/karpathy/status / 801621764144971776).

Zhang une �tude en 2017 a indiqu� que , apr�s ajustement des taux d'apprentissage et dynamique des param�tres de protocole de recuit, la m�thode de performance Adam SGD gagner un combat, et une convergence plus rapide. D'autre part, on peut penser que les m�thodes Adam de taux d'apprentissage taux d'apprentissage adaptatif peut imiter le recuit, mais un programme de recuit clair est toujours utile. Parce que, si nous apprenons la m�thode de recuit SGD pour ajouter Adam, mieux il peut faire mieux que les m�thodes de SGD dans les t�ches de traduction automatique, et une convergence plus rapide .

En fait, le programme de recuit de taux d'apprentissage semble �tre un nouveau projet de long m�trage, parce que nous avons constat� que le taux de recuit pour am�liorer le programme d'apprentissage pour am�liorer la performance du mod�le de convergence finale. Vaswani, qui en 2017 donne un exemple int�ressant de . Lorsque le r�glage des param�tres du mod�le, n�cessitent g�n�ralement une grande �chelle d'optimisation ultra-param�tre, point d'innovation de cet article est d'�tudier le taux de programme recuit �galement consid�r� comme attention particuli�re � optimiser. Les auteurs ont utilis� une m�thode Adam, o� �1 = 0,9, et les param�tres non d�finis par d�faut 2 = 0,98, = 9.10, on peut dire que le taux d'apprentissage est l'un des meilleurs programme de recuit:

Dans lequel dmodel est le nombre de param�tres du mod�le, et warmup_steps 4000.

Smith et al. Dans un autre document en 2017 r�v�le une corr�lation int�ressante entre le taux d'apprentissage et la taille des lots. Les deux param�tres de super-sont g�n�ralement consid�r�s comme ind�pendants les uns des autres, mais ils ont constat� que la r�duction du taux d'apprentissage est �quivalent � l'augmentation de la taille des lots, ce qui peut augmenter la vitesse de formation parall�le. Round, nous pouvons r�duire le nombre de mise � jour du mod�le, et d'am�liorer la vitesse de formation en augmentant le taux d'apprentissage et de mise � l'�chelle de la taille du lot. Cette constatation influe sur le processus de formation �tude approfondie massif, en partant du principe n'a pas besoin d'�tre le r�glage ultra-param�tre, r�gler � nouveau le programme de formation existant.

D�marrage � chaud (red�marre chaud)

SGD red�marre avec la m�thode

Une autre m�thode efficace est r�cemment propos� SGDR , Loshchilov Hutter et remplac� par le syst�me de taux d'apprentissage de recuit en mode red�marrage � chaud, une m�thode pour am�liorer le SGD. Chaque fois que vous red�marrez, le taux d'apprentissage est initialis� � une certaine valeur, puis progressivement diminu�. Il est important, cela peut red�marrer � tout moment, car l'optimisation ne d�marre pas � partir de z�ro, mais � partir des param�tres du mod�le sur une convergence �tape a commenc�. La cl� est d'ajuster le taux d'apprentissage par un programme de recuit cosinus positif, ce qui diminuera rapidement le taux d'apprentissage, comme suit:

Ce qui imin et l'intervalle de changement imax est le taux d'apprentissage du i-i�me formation, Tcur repr�sente le nombre d'it�rations ont �t� effectu�es depuis le dernier red�marrage et Ti indique le nombre d'it�rations pour le prochain red�marrage. taux d'apprentissage par rapport � un recuit classique, la m�thode de red�marrage thermique (Ti = 50, Ti = 100 et Ti = 200) Les performances tel que repr�sent� sur la Fig.

Figure 1: Joignez-vous � red�marrage des changements de performance de la m�thode du taux d'apprentissage

Apr�s le red�marrage, avec une �jection de param�tre de taux d'apprentissage initial �lev� de la racine � une valeur minimale d'un d�j� converg� vers diff�rentes zones de la surface de la perte de fonction. Ce m�canisme de recuit positif afin que le mod�le peut converger rapidement vers une nouvelle et de meilleures solutions. On a �galement constat� l'observation que le temps n�cessaire pour la m�thode de descente de gradient stochastique � l'aide d'un red�marrage � chaud de 2 ~ 4 fois moins que la m�thode de recuit de taux d'apprentissage, et peut atteindre comparable ou de meilleures performances.

L'utilisation d'un cycle de red�marrage � chaud est aussi appel� le recuit de taux d'apprentissage modifie le taux d'apprentissage, � l'origine d�velopp� par Smith propos�. les �tudiants fast.ai sont donn�s deux autres articles discutent du cycle de red�marrage � chaud et changer le taux d'apprentissage, � l'adresse suivante:

https://medium.com/@bushaev/improving-the-way-we-work-with-learning-rate-5e99554f163b

instantan� int�gr� (ensembles instantan�s)

L'int�gration est un instantan� m�thode ing�nieuse r�cemment propos�e par Huang , � savoir l'utilisation d'un ensemble de red�marrage � chaud assembl�, et le co�t suppl�mentaire pratiquement aucun d'un mod�le unique au cours de la formation. Cette m�thode peut �tre form� � un mod�le unique, en tant que syst�me de recuit de convergence cosinus vu pr�c�demment, puis enregistrez les param�tres du mod�le, et red�marrage � chaud, ces �tapes sont parfois r�p�t�es M. Enfin, tous les instantan�s enregistr�s constituent un mod�le de l'ensemble. On peut voir �. La figure 2, afin d'optimiser la diff�rence de performance processus d'int�gration de SGD instantan� commun de performance sur la surface d'erreur.

Figure 2: SGD et de l'int�gration de l'instantan�

En g�n�ral, le succ�s de l'int�gration d�pend de la diversit� de chaque portefeuille mod�le. Ainsi, l'int�gration de l'instantan� cosinus d�pend de la capacit� du programme de recuit, de sorte que le mod�le peut �tre red�marr� apr�s chaque Converge � diff�rents optima locaux. Les auteurs montrent que cela est vrai dans la pratique, et obtenu de bons r�sultats sur 10 ICRA, et 100-ICRA SVHN.

restart Adam avec la m�thode

Dans un premier temps la m�thode de d�marrage � chaud ne s'applique pas � Adam, puisque son att�nuation de poids est pas normal. Apr�s l'att�nuation des poids fixes, Loshchilov Hutter et de la m�me mani�re que le 2017 � Adam �tendent dans un red�marrage � chaud. Dans lequel, imin = 0, imax = 1, pour donner:

S�lectionner un plus petit Ti (entre 1 et 10 it�rations) et multipli� par un coefficient Tmult � chaque red�marrage, tel que le 2 recommande de commencer.

optimisation apprentissage

L'un des plus int�ressants sont les papiers Andrychowicz, qui l'an dernier auteur Apprendre � apprendre par descente de gradient par descente de gradient, est les utilisateurs reddit s�lectionn�s � 2016 Best Paper � . Ils ont form� optimiseur LSTM pour mettre � jour les param�tres principaux au cours de mod�le de formation. Malheureusement, optimiseur LSTM d'apprentissage individuel, ou utiliser une optimisation optimiseur LSTM pr�-formation augmentera consid�rablement la complexit� de la formation du mod�le.

Cette ann�e, il y a un � apprendre � apprendre � tr�s influent du papier, l'utilisation LSTM pour g�n�rer la structure de mod�le de langage sp�cifique au domaine de . Alors que le processus de recherche n�cessite beaucoup de ressources, mais la structure peut �tre trouv�e pour remplacer la structure existante. Le processus de recherche a �t� prouv� �tre efficace et obtenir des r�sultats dans la plupart des mod�les linguistiques de pointe, et a r�alis� un r�sultat tr�s concurrentiel sur 10 ICRA.

La m�me strat�gie de recherche peut �tre appliqu�e � tout autre domaine d�j� d�fini ses processus cl�s manuellement, ce qui est un champ de l'algorithme d'optimisation de l'apprentissage en profondeur. Comme nous l'avons vu, l'algorithme d'optimisation est conforme � cette r�gle: ils ont utilis� dans l'exponentielle pass� en mouvement pente moyenne (comme dynamique) et la moyenne mobile exponentielle du gradient au carr� pass� (comme Adadelta, RMSprop, Adam) une combinaison de .

Bello et al d�finit la langue d'un domaine particulier, l'optimisation des primitives utiles, telles que la moyenne mobile exponentielle. Ensuite, ils �chantillonn�s dans tout l'espace possible de mettre � jour les r�gles des r�gles de mise � jour, la mise � jour des r�gles � utiliser ce mod�le de formation et met � jour le contr�leur RNN en fonction de la performance sur le mod�le de formation du jeu de test. processus complet illustr� � la figure 3.

Figure 3: optimisation de la recherche nerveuse

En particulier, ils d�finit �galement deux �quations de mise � jour, � savoir PowerSign et AddSign. formule de mise � jour PowerSign est la suivante:

Dans lequel, [alpha] est un hyper-param�tres sont g�n�ralement fix�s � e ou 2 f (t) est d�finie sur 1 ou fonction de d�croissance (pas de temps t pour r�-ex�cuter une cha�ne lin�aire, cyclique ou att�nuation), o� m est la moyenne mobile de gradient pass� valeur. En r�gle g�n�rale, la mise en = e, et aucune att�nuation. Notes, la mise � jour par aF (t) ou 1 / aF (t) est mis � l'�chelle gradient et la direction de gradient selon que la moyenne mobile de la m�me. Cela montre que la dynamique du pass� similaire similitude entre le gradient de courant et le gradient est d'optimiser le mod�le d'apprentissage en profondeur des informations critiques.

AddSign d�fini comme suit:

Dans lequel, [alpha] est g�n�ralement fix�e � 1 ou 2, similaire � ce qui pr�c�de, l'�chelle est mise � jour � a + f (t) ou -f (t), en fonction de la consistance de la direction de gradient. Les auteurs notent que, la performance PowerSign et AddSign sur 10 est-ICRA sup�rieur � Adam, le montant RMSprop de SGD et la m�thode de conduite, et peut se traduire ainsi � d'autres t�ches, telles que IMAGEnet classification et la traduction automatique.

g�n�ralisation comprendre

L'optimisation et la capacit� de g�n�ralisation sont �troitement li�s, car le mod�le d�termine la valeur minimale de la convergence de la capacit� de g�n�ralisation du mod�le. Par cons�quent, le probl�me d'optimisation du progr�s et de la compr�hension de la g�n�ralisation minimum th�orique de ces progr�s est �troitement li�, et peut comprendre plus profond�ment la profondeur de l'apprentissage capacit� de g�n�ralisation.

Cependant, notre compr�hension de la profondeur de la capacit� de g�n�ralisation du r�seau de neurones est encore tr�s simple et �vidente. Des �tudes r�centes montrent que le nombre de valeurs minimales locales peut �tre une fonction du nombre de param�tres augmente de fa�on exponentielle . Compte tenu de la structure actuelle �tude approfondie d'un grand nombre de param�tres, tels mod�les peuvent converger et une meilleure capacit� de g�n�ralisation, d'autant plus qu'ils peuvent se rappeler exactement entr�e al�atoire , qui semble regarder incroyable .

Keskar et al. est la raison pour laquelle la capacit� de g�n�ralisation de minimum pauvres, ils ont �galement fait remarquer que la descente de gradient de lots valeur minimale nette trouv� avec erreur haute g�n�ralisation. Ceci est intuitive, parce que nous voulons que cette fonction est lisse g�n�ralement, minima pointus semblent montrer une surface tr�s irr�guli�re de l'erreur respective. Cependant, des �tudes r�centes ont montr� que la nettet� ne peut pas �tre un bon indicateur, car il montre que minimum local peut �tre une bonne g�n�ralisation , et Eric Jang de Quora r�pond �galement discut� du contenu sur le lien suivant:

https://www.quora.com/Why-is-the-paper-%E2%80%9CUnderstanding-Deep-Learning-Requires-Rethinking-Generalization%E2%80%9D-important/answer/Eric-Jang?srid = dWc3

Il y a un affichage RPR 2018 papier (https://openreview.net/forum?id=r1iuQjxCZ), � travers une s�rie d'analyses d'ablation, l'activation a montr� dans un espace de mod�le a une d�pendance sur une seule direction, � savoir, une seule unit� ou fonctionnalit� carte d'activation il est un bon indicateur de la capacit� de g�n�ralisation. Ils ont prouv� que ce mod�le applique le mod�le de formation sur diff�rents ensembles de donn�es, ainsi que divers degr�s de dommages � l'�tiquette. Ils ont �galement constat� que l'ajout Dropout n'a pas aid� � r�soudre ce probl�me, et la normalisation des lots entrav�s la d�pendance unilat�rale.

Bien que ces �tudes indiquent qu'il ya encore beaucoup nous ne savons pas la profondeur des connaissances pour optimiser l'apprentissage, mais gardez � l'esprit, et d'assurer la convergence d'un grand nombre de travaux existants et des id�es dans l'optimisation convexe, dans une certaine mesure, il peut �galement �tre appliqu�e � un probl�me d'optimisation non convexe dans. NIPS 2016 beaucoup de tutoriel d'optimisation sur les nombreux domaines de travail th�orique a eu une tr�s bonne critique.

conclusion

J'esp�re que le contenu ci-dessus peut �tre un bon r�sum� de quelques-uns de l'ann�e �coul�e dans le d�veloppement de probl�mes d'optimisation de la profondeur convaincante. S'il y a d'autres aspects des disparus, ou il y a une erreur dans l'article, s'il vous pla�t me contacter.

25 documents mentionn�s dans le texte, vous pouvez aller � la fin de la cr�ation d'auto-originale: http: //ruder.io/deep-learning-optimization-2017/

recrutement sinc�re

Qubits recrutent �diteur / journaliste, bas� � Zhongguancun de Beijing. Nous attendons de talent, des �tudiants enthousiastes de nous rejoindre! D�tails, s'il vous pla�t interface de dialogue qubit num�ro public (QbitAI), r�ponse mot "recrutement".

Qubit QbitAI � manchettes sur la signature de

' � suivre les nouvelles technologies AI dynamiques et de produits

Route de la soie