Les effets de plus de SGD et Adam, � la recherche d'optimisation de r�seau de neurones � cerveau Google trouver automatiquement un meilleur optimiseur de formation

Lei Feng r�seau AI Technology Review par: cerveau Google a r�cemment publi� un document � Neural Optimizer Recherche avec l'apprentissage par renforcement � (am�lior� de recherche d'optimisation de r�seau de neurones pour apprendre), par la m�thode d'apprentissage par renforcement r�seau de neurones (apprentissage particuli�rement profonde) pour trouver le plus excellente optimisation / poids r�gle de mise � jour. Le papier ne pas recr�er la roue, mais aussi obtenu de bons r�sultats, mais aussi caus� une certaine inqui�tude. Lei Feng r�seau AI Technology Review le contenu du document d�crit ci-dessous.

Pour former avec succ�s un mod�le d'apprentissage profond, s�lectionnez une m�thode d'optimisation appropri�e est tr�s important. Bien que la descente de gradient stochastique (SGD) peut g�n�ralement se lancer sur un r�sultat de bons de jeu, mais Adam et Adagrad ces m�thodes plus avanc�es peuvent courir plus vite, en particulier lors de la formation r�seau tr�s profond. Cependant, la profondeur de l'apprentissage m�thode d'optimisation de la conception est une chose tr�s difficile, parce que la nature du probl�me est un probl�me d'optimisation non convexe.

Dans cet article, les chercheurs du cerveau Google ont discut� d'un programme qui permet d'optimiser automatiquement la m�thode de conception droit des r�gles de mise � jour de poids, en particulier pour l'architecture de l'apprentissage en profondeur. L'objectif de ce programme est l'utilisation d'un contr�leur Structure RNN, ce contr�leur peut donner l'optimiseur g�n�re l'�quation de mise � jour de poids. Apr�s la commande la structure RNN est renforc�e par la formation pour apprendre, une structure de r�seau de formation sp�cifique avec le m�me nombre de r�gles de mise � jour, il g�n�re, peut maximiser la pr�cision du mod�le. Ce processus est illustr� ci-dessous.

L'architecture globale de la recherche d'optimisation de r�seau de neurones

La formation du r�seau de neurones est lent, tr�s difficile, il y a beaucoup de gens avant de concevoir une vari�t� de m�thodes. R�cente m�thode d'optimisation combine les caract�ristiques d'une m�thode al�atoire et la m�thode de traitement par lots, comme un mini-lot, avec SGD similaire, mais pour obtenir une des m�thodes plus heuristique pour estimer les informations de second ordre dans le coin, comme aucune m�thode Hesse (Hessian- libre) ou L-BFGS similaire. Un tel mode de r�alisation avantageux absorbant les deux m�thodes de probl�mes pratiques taux g�n�ralement une convergence plus rapide, comme Adam est une optimisation de la profondeur commune d'apprentissage, pour parvenir � une heuristique simple pour estimer la moyenne et la variation de largeur gradient, de sorte que plus de poids de fa�on stable mis � jour dans la formation.

Avant la plupart des r�gles de mise � jour de poids sont emprunt�s � l'analyse de la fonction convexe id�e, probl�me d'optimisation que les r�seaux de neurones sont non-convexe. r�sultats empiriques r�cents par le taux d'apprentissage heuristique non-monotones obtenus montrent que, dans la formation du r�seau de neurones, nous sont encore mal compris, il existe de nombreuses m�thodes d'optimisation non convexes peuvent �tre utilis�s pour am�liorer le processus de formation.

Google chercheurs du cerveau qui vise � l'�tude pour trouver une meilleure r�gles de mise � jour pour la formation du r�seau de neurones dans le domaine des gens sont d�j� familiers. En d'autres termes, ils ne l'intention de compter sur leurs propres � r�tablir un nouvel ensemble de r�gles mises � jour, mais avec des algorithmes de la machine-learning pour trouver plus utile pour mettre � jour les r�gles existantes. Les chercheurs ont r�cemment propos� une approche similaire, en utilisant le mod�le pour g�n�rer une valeur d'apprentissage mis � jour. La diff�rence cl� ici est que L'�tude �quation de mise � jour Google poids du cerveau pour g�n�rer une forme math�matique, plut�t que de g�n�rer directement la valeur. Une �quation de g�n�ration pour le principal avantage est que vous pouvez facilement migrer vers des t�ches plus importantes sans avoir � �mettre nouveau r�seau de neurones d'optimisation suppl�mentaire form� d'autre. De plus, moins de m�moire, ils ont con�u ce cas, bien que la m�thode ne vise pas � mettre � jour les r�gles pour optimiser l'utilisation de la m�moire, mais toujours en mesure d'obtenir Adam et r�gles de mise � jour ou RMSProp �quivalent d'occupation.

M�thodes papier a �t� inspir� par une �tude r�cente r�alis�e par mod�le d'apprentissage de renforcement � explorer, en particulier sur la recherche du r�seau de neurones, qui permet de d�finir un texte RNN g�n�rer une architecture de r�seau de neurones. En plus de ces id�es cl�s utilis�es dans diff�rentes applications, les documents de m�thodes montrent �galement un nouveau mod�le, l'entr�e d'origine � l'approche beaucoup plus souple combin�e, de sorte que la recherche pourrait devenir le nouvel optimiseur .

La structure g�n�rale du contr�leur RNN. L'unit� de commande effectue une it�ration s�lectionn�e sous-s�quence de longueur 5. Il s�lectionne tout d'abord les deux premiers op�randes et deux fonctions unaires pour appliquer les op�randes et les sorties, puis une fusion de fonction binaire deux fonctions unaires. Les r�sultats obtenus b peuvent �tre s�lectionn�s en tant que s�quence suivante pr�dite roue, ou deviennent des r�gles mises � jour. Chaque pr�diction est ex�cut�e par un classificateur softmax, et devient finalement l'entr�e de la prochaine it�ration.

Selon les r�sultats du document, dans la formation d'une petite convolution avec le r�seau 10-ICRA, leur approche de trouver que Adam, RMSProp, SGD avec ou sans beaucoup de morceaux de Momentum meilleures r�gles de mise � jour, et ceux-ci produit beaucoup de formule de mise � jour peut facilement migrer vers le nouveau mod�le d'architecture ou donn�es � utiliser. Par exemple, le droit de fonder une petite convolution dans la r�gle de mise � jour de poids de formation de r�seau a fait plus d'Adam, RMSProp, SGD avec ou sans �lan de meilleurs r�sultats dans la formation large ResNet. Pour ensemble de donn�es IMAGEnet, mettre � jour les r�gles de leur nouvelle d�couverte dans le mod�le dispositif de niveau mobile le plus avanc� de haut-1 et la pr�cision top-5 sur la base de poursuite de l'am�lioration � 0,4%. Les m�mes r�gles de mise � jour sur la traduction automatique de Google du syst�me nerveux a �galement r�alis� de bons r�sultats en 2014 WMT Anglais � des t�ches de traduction en allemand peut apporter le plus grand ascenseur de 0.7BLEU.

Pour plus de d�tails, voir la th�se originale: https: //arxiv.org/abs/1709.07417. Lei Feng r�seau compil� AI Technology Review

Route de la soie

Apprenez � conna�tre la Chine

Les effets de plus de SGD et Adam, � la recherche d'optimisation de r�seau de neurones � cerveau Google trouver automatiquement un meilleur optimiseur de formation