Comprendre descente de gradient (b) (papiers th�oriques) | machine que vous rencontrerez l'apprentissage de la � fosse �

pr�paration math�matiques

Hadamard produit: correspondant � des �l�ments respectifs de la multiplication matricielle

Un bon algorithme d'optimisation, d'une part pour �tre rapide, le nombre d'it�rations qui est mis � jour que possible, d'autre part, le co�t de l'informatique � petite, � savoir l'utilisation des informations que possible. Nous savons maintenant que les deux peuvent ne pas avoir � la fois, il suffit de calculer la pente de descente de gradient, mais � chaque �tape de la taille des gouttes est limit�e

La direction locale, plus le nombre d'it�rations mis � jour, et cette seconde m�thode d'optimisation afin Newton, en utilisant les informations de la matrice de Hesse, le gradient pr�d�termin� est �gal � z�ro, de sorte que le nombre d'it�rations en g�n�ral moins de mises � jour, mais chaque it�ration n�cessit� de calculer les �chantillons inverses �cuy�re.

Si nous voulons sur la base de la m�thode de Newton de r�duire davantage la quantit� d'informations que nous pouvons consid�rer BFGS (Broyden-Fletcher-Goldfalb-Shanno) Cette m�thode quasi-Newton bien connu, il ne calcule pas directement l'inverse hessois, mais prendre vecteur et le produit d'addition d'une matrice pour remplacer le Hessian, de sorte que la quantit� de calcul est en outre diminu�e. Mais m�me si nous avons encore rarement utilis� dans une �tude approfondie, le principal facteur est les param�tres du mod�le et des donn�es pour les grandes, la complexit� de l'espace est trop grand, la consommation de m�moire grave.

Donc, descente de gradient semble regarder meilleur choix, mais il y a encore place � l'am�lioration. Tout d'abord, nous avons dans le calcul du gradient, avec tous les �chantillons, car une telle estimation de gradient est plus pr�cis, mais de nombreux �chantillons sont trop similaires, tels que d'autres conditions sont les m�mes, une hauteur 172, 63 kg de poids, une autre hauteur 172,5, poids 63,4, la contribution d'un tel �chantillon de la fonction de perte est similaire, l'estimation g�n�r�e par gradient est similaire, nous pouvons employer moins et des informations efficaces pour remplacer les informations redondantes, d'autre part, dans la pratique, m�me de petites quantit�s de descente de gradient augmenter le nombre d'it�rations, mais le co�t de calcul moins, l'efficacit� globale est encore �lev�, et enfin, une s�lection al�atoire de petites quantit�s d'�chantillon dans une certaine mesure de la variance accrue (terme de bruit) estimation gradient, mais rend la possibilit� d'�chapper � la descente de gradient local minimum, et pour assurer l'�chantillon complet entra�ne une descente de gradient presque une condition sine qua non, il y avait encore plus de possibilit�s.

Une telle approche que nous appelons descente de gradient stochastique (Stochastic gradient de descente), certaines personnes vont suivre chaque mise � jour en utilisant un gradient de taille de l'�chantillon, plus divis� en faible volume, en ligne, etc., une telle classification n'est pas n�cessaire, dire maintenant g�n�ralement au hasard, se r�f�re g�n�ralement � la petite descente de gradient par lots. En raison d'un gradient de mise � jour unique de l'�chantillon, les r�sultats d'estimation de gradient seront pauvres, et ne peuvent pas utiliser efficacement le fonctionnement multi-thread, nous ne serons pas discut� ici.

descente de gradient stochastique sur les param�tres de la formule de mise � jour d'origine:

Les modifications de la:

Lorsque vous utilisez une descente de gradient stochastique, le point d'origine du z�ro gradient g�n�ralement pas nul, mais il peut aussi devenir tr�s petit, donc nous allons voir la descente de gradient stochastique et ne restera pas au minimum (s'il y a une valeur minimum de mots ), mais une l�g�re commotion c�r�brale dans le voisinage. D'autres exp�riences montrent que la descente de pente de descente de gradient stochastique serait bien au-del� de la performance de tous les �chantillons dans l'it�ration initiale.

Ensuite, la descente de gradient ne peut pas plus vite? Parce que nous pouvons imaginer, si les valeurs initiales des param�tres plus proches de point cible, alors certainement plus vite le processus d'optimisation, chaque gradients �tape sont accumul�s dans le m�me sens, il peut aussi r�duire beaucoup d'it�rations inutiles, apr�s tout, est essentiellement une descente de gradient gourmand a.

Comme le montre, les param�tres initiaux a et b ne sont pas les m�mes, les r�sultats d'une descente de gradient plus rapide que b, bien que chaque �tape du gradient b est r�duite en ce moment la meilleure direction, mais dans l'ensemble, b perdu dans l'�tape de d�placement d'avant en arri�re � proximit� du contour.

Cependant, en g�n�ral, nous ne savons pas la nature de la fonction de perte, nous ne pouvons pas d�terminer la valeur initiale parfaite (dans la pratique, g�n�ralement supposer une distribution normale ou initialisation al�atoire), autrement dit, nous devons trouver des moyens de plus g�n�ralement face � la situation, dans la mesure du possible de r�duire le dos et le mouvement en avant dans le voisinage du contour.

algorithme de Momentum peut att�nuer ce probl�me, il introduit une quantit� appel�e la vitesse, utilis�e pour accumuler les informations de gradient pr�c�dent:

Cette approche est des consid�rations physiques, la fonction de perte est le gradient n�gatif du gradient de potentiel de n�gatif sur le plan physique, nous l'appelons une force, l'additionneur vectoriel, ou faire d�composition orthogonale, peut voir directement, CUMUL le r�sultat est d'augmenter la force de la m�me direction � chaque fois, mais dans la direction oppos�e annulent, de sorte que la vitesse augmente dans la m�me direction chaque force de temps est essentiellement sur la direction du gradient de la normalis�e faire, alors nous choisissons utiliser la vitesse de mise � jour des param�tres:

Consid�rons le cas d'extr�me, si la m�me chaque fois que la direction du gradient, alors v sera de plus en plus le long d'une direction, un param�tre utilis� pour ajuster la proportion des gradients de gradient pass�s et pr�sents accumul�s, un plus grand, le pass� l'information a repr�sent� la plus grande proportion. Nous pouvons �galement ajouter la vitesse sur l'�l�ment dans l'argument avant le calcul gradient:

Nesterov obtenir un algorithme dynamique, un terme simple, et pas inhabituel, les diff�rentes �tapes ne sont ajout�es dans le cycle et, apr�s l'algorithme de mouvement standard sera ex�cut� t�t ou tard, la mise � jour des param�tres de gradient. En fait, si nous faisons une simple addition de vecteur:

Comme repr�sent�, le c�t� gauche est l'algorithme de quantit� de mouvement ordinaire suit l'additionneur vectoriel, dans lequel le gradient de l'�tape de gradient par �tape en utilisant la vitesse actuelle n, en gradient par �tapes a �t� utilis� Nesterov de l'information de vitesse, l'�tape finale se produit que le d�calage r�el .

Momentum a acc�l�r� l'algorithme dans une certaine mesure dans la descente de gradient, mais introduit un autre ultra-param�tres a, plus important encore, la pratique a constat� que les m�mes param�tres que super, loin d'�tre le taux d'apprentissage

Important, nous esp�rons sans introduire des param�tres suppl�mentaires pour optimiser l'acc�l�ration, vous devez consid�rer le taux d'apprentissage. Nous voulons atteindre le gradient effet, le taux d'apprentissage dans un grand temps, deviennent plus petits, et ne manquerons pas d'une valeur minimale, le gradient devient plus grand � un tr�s jeune �ge, donc lieu de plat de perte pour aller plus vite. Ceci est appel� algorithme de taux d'apprentissage adaptatif.

Plus le gradient de vitesse d'apprentissage � �tre plus petite, une id�e naturelle est d'utiliser un montant cumul� de l'ensemble du gradient:

Et puis en multipliant le gradient de vitesse d'apprentissage r�ciproque qui

Est une tr�s faible constante pour �viter le d�nominateur est nul:

Cet algorithme est appel� AdaGrad, lieu simple � r�aliser un gradient de plus, plus le taux d'objectifs d'apprentissage. Mais tout cela gradient accumul� de sorte que le taux d'apprentissage du d�clin pr�matur�, donc nous pouvons aussi donner diff�rentes p�riodes du facteur de pond�ration de gradient �tant donn� que le gradient plus t�t est pas important, mais le plus important gradient plus proche:

Cet algorithme a �t� RMSProp, sur cette base, nous voulons aussi ajouter quelques �l�ments de correction gradient, le gradient va utiliser des personnes touch�es actuellement par l'histoire de l'algorithme gradient avec un �lan comme ceci:

Derni�re mise � jour la formule devient �galement:

Cela a �t� la forme de base de l'algorithme Adam, qui contient deux ultra-param�tre, qui est la profondeur de l'algorithme d'apprentissage est le plus fr�quemment utilis�.

Lire Xinjunkaiba Salle de classe CONSEILS

Avec l'augmentation des donn�es, dans certains cas, nous avons d� utiliser un �chantillon al�atoire de d�clin de gradient unique, car selon le d�veloppement actuel, la taille du taux de croissance des donn�es a d�pass� la croissance de la puissance de calcul, en outre, l'ensemble de la formation est divis�e la formation par lots devient de plus en plus commun.

ajuster �galement l'algorithme de taux d'apprentissage est essentiellement dynamique

L'un d'un plus grand, plus rapide, mais l'algorithme de mouvement a un inconv�nient �vident, qui est, lorsque la vitesse est trop rapide, vous ne pouvez pas arr�ter � proximit� de la valeur minimale, qui limite le d�veloppement de facteurs, � la fois g�n�rale algorithme de mouvement est combin� avec un autre algorithme adaptatif peut jouer le plus grand effet.

algorithme Adam est �galement consid�r� comme le premier moment et le deuxi�me moment de la correction de l'�cart, mais pour les d�butants, une meilleure compr�hension de la fa�on dont l'�lan est RMSprop + algorithme doit noter que l'accumulation de gradient et l'accumulation de momentum premi�res tendances � z�ro, en g�n�ral, nous allons corriger d'abord, par exemple:

Auteur: moine sans t�te et �paules Pour r�imprimer, s'il vous pla�t laisser un message dans les coulisses, se conformer aux normes de r�impression

Route de la soie

Apprenez � conna�tre la Chine

Comprendre descente de gradient (b) (papiers th�oriques) | machine que vous rencontrerez l'apprentissage de la � fosse �