Comprendre descente de gradient (b) (articles Code) | apprentissage machine que vous rencontrerez la "fosse"

Aujourd'hui est le dernier jour avant la f�te nationale. apprendre s�rieusement cette le�on, puis embrasser vacances mieux il ~ ~

Nous sur une � descente de gradient compr�hension (a) les articles du Code � a vu l'impact des algorithmes d'optimisation des taux d'apprentissage, ainsi qu'une br�ve discussion sur les limites de la m�thode de Newton, l'introduction de la m�thode de Newton r�gularis� qui ne fonctionne pas mettre � jour la mauvaise direction, mais nous ne sommes qu'une seule dimension de la fonction de perte, direction optimis�e que dans une direction fixe, mais dans l'espace de grande dimension, descente de gradient en raison de d�raisonnable et la valeur initiale morbide de l'hessois it�ration mettre � jour gaspill� errant autour du contour, ce qui est un probl�me commun de descente de gradient ordinaire.

Ici, nous ne montrerons pas la descente de gradient stochastique, descente de gradient stochastique est important, mais le besoin de donn�es suppl�mentaires dans notre fonction de perte, nous faisons principalement ici dans l'exemple de programme, nous avons encore une continuation de la pratique, dirigera la fonction de perte en tant que param�tre fonction. Nous avons d'abord construit simple perte:

La perte dans ce cas est une structure de bol typique, la fonction de corr�lation de code peut facilement �tre �crit:

def �f (x, y):

� retour �x ** 2 + y 2 **

def �partial_x (x):

� retour �2 * x

def �partial_y (y):

� retour �2 * y

En m�me temps, l'espace des param�tres gradient deviendra un espace vectoriel � deux dimensions, la mise � jour gradient le code � �crire:

def �GD (de gauche � droite, d�but):

�x, y = D�but , commencer

�GD_x, GD_y, GD_z = , ,

� pour �elle en �plage (100):

�GD_x.append (x)

�GD_y.append (y)

�GD_z.append (f (x, y))

�dx = partial_x (x)

�dy = partial_y (y)

�x = x - lr * dx

�y = y - lr * dy

� �retour �GD_x, GD_y, GD_z

Ici, j'ai enregistr� une perte de valeur de l'enregistrement pour la visualisation de l'espace des param�tres est pas n�cessaire, mais nous suivons le taux de convergence de la recherche est n�cessaire, plus important encore, nous sommes dans la pratique ne peuvent souvent pas conna�tre l'exacte point de param�tre optimal, nous devons d�terminer si la perte de changements dans le processus de formation est termin�e.

Nous continuons sur un cadre de base, afin de c�l�brer la f�te nationale, nous avons s�lectionn� est chaud colormap, encore plus chaud, anim� et plein de passion:

importer numpy comme np

matplotlib.pyplot importation comme plt

de l'animation d'importation matplotlib

matplotlib.cm d'importation en cm

de FuncAnimation import matplotlib.animation

Seaborn d'importation comme sns

sns.set (style = 'blanc')

FFwriter = animation.FFMpegWriter ()

fig, Ax = plt.subplots ()

fig.set_tight_layout (Vrai)

def �f (x, y):

� retour �x ** 2 + y 2 **

def �partial_x (x):

� retour �2 * x

def �partial_y (y):

�retour �2 * y

a = np.linspace (-20,20,100)

b = np.linspace (-20,20,100)

A, B = np.meshgrid (a, b)

ax.contourf (A, B, f (A, B), 50, alpha = 0,8, cmap = cm.hot) # dernier param�tre colormap

def �GD (de gauche � droite, d�but):

�x, y = D�but , commencer

�GD_x, GD_y, GD_z = , ,

� pour �elle en �plage (100):

�GD_x.append (x)

�GD_y.append (y)

�GD_z.append (f (x, y))

�dx = partial_x (x)

�dy = partial_y (y)

�x = x - lr * dx

�y = y - lr * dy

� retour (GD_x, GD_y, GD_z)

GD_x, GD_y, GD_z = GD (lr = pow (2, -7) * 16, start = )

print ( 'taille fig: {0} DPI, la taille en pouces {1} format' (.

�fig.get_dpi (), fig.get_size_inches ()))

point_line, = ax.plot (GD_x , GD_y , 'ou')

def �mise � jour (i):

��tiquette 'timestep {0}' = format. (i)

�impression (�tiquette)

�point_line.set_xdata (GD_x )

�point_line.set_ydata (GD_y )

�ax.set_xlabel (label)

� retour �point_line, hache

si �__name__ == '__main__':

�anim = FuncAnimation (fig, mise � jour, cadres = np.arange (0, 15), intervalle = 200)

�plt.show ()

Comme le montre, nous avons r�alis� sur les deux dimensions algorithme d'optimisation de descente de gradient de l'espace des param�tres, plus la couleur, plus la valeur de la perte, qui a fix� le taux d'utilisation de notre apprentissage sur l'une d'exp�rience.

Nous pouvons mettre en uvre un algorithme simple bas� sur la th�orie de la dynamique:

def �Momentum (de gauche � droite, a, commencer):

�xy = d�but

�v = np.array ()

�M_xy, M_z = ,

�pour �elle en �plage (100):

�M_xy.append (xy)

�M_z.append (f (xy , xy ))

�v = a * v -

�xy = xy + v

� retour (M_xy, M_z)

Avis J'�cris ce code n'est pas le temps de variable divis�e, mais directement comme un tableau � la poign�e, g�n�ralement dans les param�tres espace des param�tres de grande dimension recommand�s comme vecteur pour param�tre de tableau de soustraction directe lors de la mise � jour nous faisons des ajustements pr�cis aux param�tres correspondants d'une image de mouvement, le num�ro de ch�ssis est r�gl� sur 50, peuvent �tre obtenues:

Comme le montre, les param�tres de mise � jour it�rative dans l'algorithme de mouvement est plus comme des particules dans la m�canique newtonienne, d�rive heureux dans une zone en forme de bol, mais attention � un autre grand algorithme dynamique de l'�lan et descente de gradient ne sera pas la m�me, descente de gradient produira un choc sym�trique, l'algorithme de mouvement est un amortissement de choc, l'amplitude deviendra de plus en plus petit.

Nous pouvons r�gler les param�tres ultra-un, le rendre plus petit, parce que, selon l'analyse th�orique, les �tapes dans l'algorithme de mouvement devient:

un plus petit, plus l'acc�l�ration, est plus susceptible de se stabiliser � l'extr�me, nous deviendrons un 0,9 de 0,4:

M_xy, M_z = Momentum (lr = pow (2, -7) * 16, a = 0,4, start = )

Comme le montre, la dynamique de d�clin de gradient arithm�tique pure beaucoup plus rapide, bien s�r, plus important encore, m�me lorsque la taille de l'�tape, il ne produira pas une descente pure gradient de choc sym�trique comme �a.

Ensuite, en raison des contraintes d'espace, nous sautons algorithme AdaGrad, construit directement algorithme RMSProp:

def �RMSProp (de gauche � droite, d, ro, d�part):

�xy = d�but

�r = np.array ()

�RMS_xy, RMS_z = ,

� pour �elle en �plage (100):

�RMS_xy.append (xy)

�RMS_z.append (f (xy , xy ))

�g = np.array ( )

�r = ro * r + (1-ro) * g * g

�xy = xy - lr / (d + np.sqrt (r)) * g

� retour (RMS_xy, RMS_z)

Notez que nous avons un taux d'apprentissage adaptatif point de d�part du gradient, plus RMSProp peut s'attendre � commencer RMSProp doit �tre tr�s lent, mais nous pouvons augmenter le taux d'apprentissage initial, plut�t que trop d'inqui�tude au sujet du taux d'apprentissage est trop cons�quences haute performance de faible gradient: lorsque la descente

GD_xy, GD_z = RMSProp (lr = pow (2, -2) * 16, d = 1e-6, ro = 0,9, start = )

Comme on le voit, RMSProp plus rapide pour atteindre le point cible, mais il faut souligner, trop taux d'apprentissage encore provoquer un choc, mais aussi � proximit� d'une petite tendance � la hausse gradient, il y a une tendance � la baisse � proximit� des grands gradients, en tout cas, nous sommes toujours confront�s au probl�me de la fixation du taux d'apprentissage initial, mais le taux de descente de gradient adaptatif algorithme d'apprentissage que l'intelligence pure un lot.

En plus de la valeur initiale du taux d'apprentissage, la valeur initiale du param�tre est �galement important que nous regardons un point de la situation un peu plus complexe, la fonction de perte est d�finie comme suit:

Nous pouvons trouver que (0,0) est le point d'un point de selle, la m�me chose, nous changeons le code:

def �f (x, y):

� retour �x ** 2 ** 2-y

def �partial_x (x, y):

� retour �2 * x

def �partial_y (y, x):

� retour �-2 * y

algorithme de descente de gradient r�p�te les �tapes ci-dessus, nous constatons que les valeurs initiales des param�tres d'une grande influence:

GD_x, GD_y, GD_z = GD (lr = pow (2, -7) * 16, start = )

Comme le montre, nous allons d�finir la valeur initiale du param�tre et trouv� juste rester pr�s du point selle, ce qui est �videmment pas une bonne optimisation.

Nous transporterons seul param�tre valeur initiale d'un petit peu:

GD_x, GD_y, GD_z = GD (lr = pow (2, -7) * 16, start = )

Comme le montre, la valeur initiale du param�tre que nous venons d�plac� un peu, nous pouvons continuer � optimiser fui le point selle, de sorte que la descente de gradient, le point selle est pas un probl�me difficile � r�soudre dans l'ing�nierie, mais pour le second ordre algorithme d'optimisation tels que la loi de Newton , en supposant nulle doute de trouver une valeur de gradient z�ro, le point selle est fatale.

Lire Xinjunkaiba Salle de classe CONSEILS
les algorithmes et les algorithmes ici Adam AdaGrad non repr�sent�s, laissant le lecteur � la conception, si vous avez vraiment ma�tris� ces algorithmes d'optimisation, le code, mais le probl�me est d'ajouter quelques param�tres.

Fonction de perte Dans le pr�sent document est trop simple, pas tous se rendre compte de la pleine puissance de l'algorithme et le montant mobilis� algorithme RMSProp, en fait, a un certain nombre de conditions pathologiques et descente de gradient stochastique, la variance de l'estimation gradient grande dans le hessois leur avantage tr�s clair que ces algorithmes d'optimisation sont largement utilis�s dans l'apprentissage en profondeur, nous verrons leur pouvoir dans une le�on ult�rieure (fonction de perte principalement en raison de la profondeur de l'apprentissage assez compliqu�, les avantages de ces algorithmes �tait assez �vident).

Auteur: moine sans t�te et �paules Pour r�imprimer, s'il vous pla�t laisser un message dans les coulisses, se conformer aux normes de r�impression

Route de la soie

Apprenez � conna�tre la Chine

Comprendre descente de gradient (b) (articles Code) | apprentissage machine que vous rencontrerez la "fosse"