� Classe IA � comprennent descente de gradient (a) (articles du Code) machine que vous rencontrerez l'apprentissage de la � fosse �

tout le monde premier souhaite une bonne mi-automne ~

Le mod�le r�el dans le processus de formation, en particulier dans l'apprentissage en profondeur, le param�tre atteindra des dizaines de millions, l'espace des param�tres deviendra tr�s grand. Pour mieux vous aider � comprendre l'algorithme d'optimisation, nous commencerons par une unidimensionnelle fonction de perte, lors de la pr�sentation du code, je ne vais pas montrer les coordonn�es de d�clin, non seulement � cause d'un coordinat descente et mises � jour bas�es sur les gradients sont dans le m�me direction de la recherche, plus important encore, ce chapitre de code espoir que nous pouvons saisir le tirage au sort et de visualiser une image GIF dans cette section algorithme d'optimisation, qui est largement utilis� dans nos le�ons ult�rieures.

Nous assumons la fonction de perte pour le param�tre est une fonction quadratique tr�s simple:

Ensuite, son gradient est:

def �f (x):

� retour (X ** 2)

def �df (x):

� retour (2 * x)

Selon le m�me temps sur un des articles th�oriques ladite �quation de descente de gradient:

Nous pouvons d�finir une fonction pour une descente de gradient, qui prend la valeur initiale et les param�tres de taux d'apprentissage, les valeurs de retour et les valeurs des param�tres Perte apr�s chaque mise � jour, on note que, � ce moment seulement it�ration 100 fois:

def �GD (de gauche � droite, d�but):

�x = d�but

�GD_x, GD_y = ,

� pour �elle en �plage (100):

�GD_x.append (x)

�GD_y.append (f (x))

�dx = df (x)

�x = x - lr * dx

� �retour (GD_x, GD_y)

En utilisation r�elle, on n'a pas besoin d'enregistrer les r�sultats de chaque it�ration, lorsque le param�tre tr�s longtemps, la consommation de m�moire de l'ordinateur sera tr�s grande, mais nous devons utiliser les r�sultats de chaque �tape du processus pour vous montrer d�cliner visuellement. A propos du code beaucoup de gens peuvent comprendre rapidement et � l'application m�me, mais le processus de d�clin du spectacle, nous avons besoin de dessiner la carte dynamique, nous devons utiliser matplotlib en animation, en plus, si nous devons sauver GIF, nous avons aussi besoin d'installer ffmpeg.

Code GIF dans la r�alisation de fonctionnement pratique, nous devons d�gager deux �tapes:

Ne sera pas mis � jour une partie graphique
graphiques constamment mis � jour et une partie graphique de l'initialisation

Pour la premi�re �tape, on peut facilement �crire:

matplotlib.pyplot importation comme plt

Seaborn d'importation comme sns

sns.set (style = 'darkgrid')

FFwriter = animation.FFMpegWriter ()

fig, Ax = plt.subplots ()

fig.set_tight_layout (Vrai)

points_x = np.linspace (-20, 20, 1000)

points_y = f (points_x)

ax.plot (points_x, points_y, c = "k", alpha = 0,9, linestyle = "-")

Pour la deuxi�me �tape, il faut d'abord obtenir les r�sultats de la descente de gradient:

GD_x, GD_y = GD (lr = pow (2, -10) * 16, start = -20)

Ensuite initialize, mettez � jour la d�finition d'une formule, nous obtiendrons les r�sultats afin de mettre � jour ce qui pr�c�de:

point_line, = ax.plot (GD_x , GD_y , 'ou')

def �mise � jour (i):

��tiquette 'timestep {0}' = format. (i)

�impression (�tiquette)

�point_line.set_xdata (GD_x )

�point_line.set_ydata (GD_y )

�ax.set_xlabel (label)

�retour �point_line, hache

La figue, mise � jour FuncAnimation pass� comme argument � la classe de notre animation, et d�finir le nombre d'images � 60 images, chaque intervalle de trame de 200 ms:

anim = FuncAnimation (fig, mise � jour, cadres = np.arange (0, 60), intervalle = 200)

Notre code se r�sume comme suit:

importer numpy comme np

matplotlib.pyplot importation comme plt

de l'animation d'importation matplotlib

de FuncAnimation import matplotlib.animation

Seaborn d'importation comme sns

sns.set (style = 'darkgrid')

FFwriter = animation.FFMpegWriter ()

fig, Ax = plt.subplots ()

fig.set_tight_layout (Vrai)

def �f (x):

� retour (X ** 2)

def �df (x):

� retour (2 * x)

points_x = np.linspace (-20, 20, 1000)

points_y = f (points_x)

ax.plot (points_x, points_y, c = "k", alpha = 0,9, linestyle = "-")

def �GD (de gauche � droite, d�but):

�x = d�but

�GD_x, GD_y = ,

� �pour �elle en �plage (100):

�GD_x.append (x)

�GD_y.append (f (x))

�dx = df (x)

�x = x - lr * dx

� retour (GD_x, GD_y)

GD_x, GD_y = GD (lr = pow (2, -10) * 16, start = -20)

print ( 'taille fig: {0} DPI, la taille en pouces {1} format' (.

�fig.get_dpi (), fig.get_size_inches ()))

point_line, = ax.plot (GD_x , GD_y , 'ou')

def �mise � jour (i):

��tiquette 'timestep {0}' = format. (i)

�impression (�tiquette)

�point_line.set_xdata (GD_x )

�point_line.set_ydata (GD_y )

�ax.set_xlabel (label)

� retour �point_line, hache

if__name __ == '__ main__':

�anim = FuncAnimation (fig, mise � jour, des cadres = np.arange (0, 100), intervalle = 200)

�anim.save ( 'GD.gif', �crivain = FFwriter)

Puis, comme le montre, nous avons r�ussi � r�aliser la descente de gradient sur la fonction de perte, en m�me temps, on peut voir, le gradient de plus en plus petits, dans le cas de taux d'apprentissage fixe de d�clin est devenu de plus en plus lent, it�ratives encore 60 fois il n'atteint pas le point le plus bas.

Nous pouvons essayer d'apprendre un peu de grands param�tres de taux, et voir si une it�ration plus rapide au minimum:

......

GD_x, GD_y = GD (lr = pow (2, -7) * 16, start = -20)

......

Comme on le voit, plus on atteint le minimum, it�rations dix ont atteint, it�rations ult�rieures est inutile.
Si nous continuons � augmenter le taux d'apprendre ce qui se passe t-il? Nous continuons d'augmenter le taux d'apprentissage:

......

GD_x, GD_y = GD (lr = pow (2, -4) * 16, start = -20)

......

Comme le montre, lorsque le taux d'apprentissage continue d'augmenter lorsque les points de param�tres avant et en arri�re � proximit� du minimum de choc, imaginez, si nous continuons � augmenter le taux d'apprentissage, la mise � jour point au-del� de la port�e du graphique.

essayer de temps � c�t� de la loi de Newton, besoin d'�tre au courant � ce moment de la fonction de perte de la d�riv�e seconde est une constante, si l'on utilise directement de la m�thode de Newton de la formule de mise � jour:

Vous trouverez � cette �poque de la m�thode de Newton est juste un autre gradient de vitesse d'apprentissage � l'automne, le taux d'apprentissage est fix� � l'inverse de la d�riv�e seconde, nous voulons voir la diff�rence dans la m�thode de Newton et la m�thode de descente de gradient, nous devons remplacer la fonction de perte, pour y parvenir, nous avons d� ajouter une petite fonction de perte trigonom�triques articles:

avantage trigonom�trique est qu'elle peut conduire non seulement d'ordre infini, et ne sera pas constante, mais pas beaucoup d'impact sur la forme de la fonction d'origine, on peut facilement �crire:

def �f (x):

� retour (-Np.cos (np.pi * x / 20) + x ** 2)

def �df (x):

�retour (Np.sin (np.pi * x / 20) * np.pi / 20 + 2 * x)

def �DDF (x):

� �retour ((Np.pi / 20) ** 2 * np.cos (np.pi * x / 20) 2)

Cela garantit que la d�riv�e seconde est pas une constante, nous construisons � jour Newton M�thode:

def �Newton (d�but):

�x = d�but

�Newton_x, Newton_y = ,

� pour �elle en plage (100):

�Newton_x.append (x), Newton_y.append (f (x))

�g = df (x)

�h = DDF (x)

�x = x -g / h

� �retour (Newton_x, Newton_y)

Nous utilisons ensuite cette fonction pour obtenir le point de mise � jour et mise � jour du GIF:

......

newton_x, newton_y = Newton (start = -20)

point_line, = ax.plot (newton_x , newton_y , 'ou')

def �mise � jour (i):

��tiquette 'timestep {0}' = format. (i)

�impression (�tiquette)

�point_line.set_xdata (newton_x )

�point_line.set_ydata (newton_y )

�ax.set_xlabel (label)

� retour �point_line, hache

......

Comme le montre, les param�tres qu'une seule fois it�rations au point le plus bas, les it�rations ult�rieures ne fonctionnera pas, parce que le gradient est nul.
La m�thode de Newton semble rapide, mais nous utilisons rarement dans le cas de la nature peu claire de la fonction de perte, en particulier dans l'�tude approfondie, non seulement en raison de la n�cessit� pour les besoins de chaque �tape � calculer hessois, mais aussi parce que si nous voulons vraiment Newton m�thode �tape de goutte d'ex�cution, doit veiller � ce que la d�finie positive hessois qui n'est pas �tabli dans certains cas, par exemple, nous avons directement fonction de perte est d�finie en fonction cosinus:

Notre valeur de param�tre initial est r�gl� sur -15, -20, car lorsque le temps juste maxima, le gradient est nul, ne peut pas �tre it�rative, alors que le nombre d'image est r�gl�e sur 10, nous examinons ce gain de temps:

def �f (x):

� retour (-Np.cos (np.pi * x / 20))

def �df (x):

� retour (Np.sin (np.pi * x / 20) * np.pi / 20)

def DDF (x):

� �retour ((Np.pi / 20) ** 2 * np.cos (np.pi * x / 20))

Comme on le voit, la m�thode de Newton est r�alis�e � la place de l'augmentation de pas, parce que ce temps est Hessian d�finie n�gative, le cas unidimensionnel, la d�riv�e seconde est n�gative, le point de vue gradient formule de mise � jour m�thode de Newton, le n�gatif d�fini Hessian lorsque le taux d'apprentissage est n�gatif.

Mais la descente de gradient n'a pas eu ce probl�me, parce que nous sommes dans la mise en uvre d'une descente de gradient, le taux d'apprentissage est toujours positif.

�Comme on le voit, dans l'application de descente de gradient fonction cosinus de configuration de la fonction de perte, le r�sultat peut �tre baisse garantie.
Comment r�soudre le probl�me de la m�thode de Newton au lieu de descendre il? On peut imiter la r�gression Ridge ajoutant r�gularisation L2 des fa�ons de rendre la matrice �chantillon pour forcer rang plein, m�me, nous pouvons �galement ajouter un terme de r�gularisation dans hessois, Jute forc� de faire pr�cis:

Le code peut facilement �tre �crit:

def �Newton (d�but, alpha):

�x = d�but

�Newton_x, Newton_y = ,

� pour �elle en �plage (100):

�Newton_x.append (x), Newton_y.append (f (x))

�g = df (x)

�h = DDF (x)

�x = x -g / (h + alpha)

� retour (Newton_x, Newton_y)

Nous avons mis le param�tre de r�gularisation alpha, et appliqu� dans ce cas la fonction de perte:

......

Newton_x, Newton_y = Newton (start = -15, alpha = pow (2, -8) * 20)

......

La photo montre l'ajout de la m�thode de Newton r�gularis�, la r�gularisation permettront la mise en uvre de la m�thode de Newton originale des �tapes mont�e vers le bas.
Lire Xinjunkaiba Salle de classe CONSEILS
Lors de l'utilisation matplotlib sauver l'image, m�me si le ffmpeg install� (ajout� � la variable d'environnement), il est encore possible probl�me d'�conomie d'erreur GIF se produit, il est recommand� de sauvegarder premier enregistrement du fichier MP4, puis ex�cutez la commande suivante dans le r�pertoire courant, qui est, GIF carte disponible:

�ffmpeg.exe -i. \ filename.mp4filename.gif

Fonction de perte utilis�e dans le pr�sent document est simple, le processus r�el, nous pouvons �galement faire face � un minimum global et des probl�mes minimums locaux, mais dans une �tude approfondie, l'optimisation convexe est pas un gros probl�me, parce que nous avons besoin que faire erreur de g�n�ralisation � trouver nous acceptons le degr�, mais l'algorithme d'optimisation globale en th�orie et actuellement il n'y a aucune garantie fiable.

En plus de la capacit� d'adaptation du taux d'apprentissage et la fonction de perte, la valeur initiale du param�tre et le point selle est un probl�me tr�s g�nant dans le processus d'optimisation, le plus gros probl�me est que la loi de Newton sont g�n�ralement le point selle il trouve, nous allons nous concentrer dans le chapitre suivant pour expliquer au hasard descente de gradient en tant que repr�sentant de la s�rie de la technologie populaire, et il impliquera l'algorithme d'optimisation de la direction de la recherche du probl�me (dans cette section est seulement un param�tre unidimensionnel, la section suivante de l'article sera �tendu aux codes multidimensionnels).

Auteur: moine sans t�te et �paules Pour r�imprimer, s'il vous pla�t laisser un message dans les coulisses, se conformer aux normes de r�impression

Route de la soie

Apprenez � conna�tre la Chine

� Classe IA � comprennent descente de gradient (a) (articles du Code) machine que vous rencontrerez l'apprentissage de la � fosse �