probl�me gradient dispara�tre: les probl�mes, les causes et leurs solutions signification

Cet article est une compilation de technologie blog AI Yanxishe, le titre original:

Le probl�me Vanishing gradient

Auteur | Chi-Feng Wang

Traduction | �diteur Dddda | poisson Wang

Lien original:

https://towardsdatascience.com/solving-nlp-task-using-sequence2sequence-model-from-zero-to-hero-c193c1bd03d1

probl�me

Comme de plus en plus du r�seau de neurones est ajout� � la fonction d'activation, le gradient de la fonction de perte se rapproche de 0, de sorte que la structure est difficile de former le r�seau.

raison

fonction d'activation sp�cifique, comme une fonction sigmo�de, la grande compression d'espace entre 0 et 1. Par cons�quent, m�me si la fonction d'entr�e ne varie grandement peu chang� de sortie. Ainsi, le d�riv� devient insignifiant.

Figure 1: les fonctions sigmo�des et d�riv�s

Par exemple, la figure une fonction sigmo�de et son d�riv�. On notera que lorsque l'entr�e de la fonction sigmo�de h augmente ou diminue (si | x |), le d�riv� de la fa�on proche de z�ro.

Pourquoi est-ce important?

Pour que les couches superficielles de la structure de r�seau en utilisant la fonction d'activation, ce n'est pas un gros probl�me. Cependant, lorsque vous utilisez plusieurs couches peut provoquer le gradient trop petit pour �tre une bonne formation.

r�seau de neurones gradient est d'utiliser r�tropropagation � trouver. En bref, par le r�seau de propagation de retour pour trouver la d�riv�e de la derni�re couche de la couche r�seau par la couche de se d�placer vers la couche initiale. Par la r�gle de la cha�ne, le d�riv� de chaque couche multipli�e par le r�seau (� partir de la premi�re couche � la couche finale), le d�riv� de couche initiale calcul�e.

Cependant, quand il y a n couche cach�e en utilisant la fonction d'activation sigmo�de lorsque l'image, multipli� par l'inverse d'un petit n. Par cons�quent, lorsque nous avons atteint la couche initiale inverse, le gradient va baisser de mani�re significative.

Droite un petit moyen de la couche � gradient que le poids initial et l'�cart ne sera pas efficace dans la formation de mise � jour. �tant donn� que ces couche centrale initiale est g�n�ralement essentielle pour l'identification des �l�ments de donn�es d'entr�e, l'ensemble du r�seau peut entra�ner l'ensemble inexacte.

solutions

Semblables Relu,, solution la plus simple est d'utiliser la fonction d'activation ne r�sulte pas dans un petit d�riv�.

En outre r�seau r�siduel est une solution, parce que la couche r�siduelle est pr�vu avant la connexion directe. Comme dans 2. La figure, la valeur r�siduelle est ajout�e directement reli� au d�but du bloc x sur le bloc d'extr�mit� (F (x) + x). Lei Feng Lei Feng Lei r�seau de r�seau de r�seau Feng

Les r�sidus ne sont pas reli�s par la fonction d'activation � de compression �, ce qui entra�ne une plus grande inverse globale du bloc.

Figure 2: couche r�siduelle

************************************************** ***********************

Notes personnelles Traducteur: L'essence du x connect� directement sur la. h (x) = f (x) + x, h (x) de x valeur d�riv�e partielle de 1, le bloc 1 directement � l'extr�mit� la plus distale, de sorte que le gradient de la valeur apr�s un passage � travers le intact avant cette couche, puis dans le sol, ce qui rend les poids peu profonds, vous pouvez �galement obtenir une bonne formation.

************************************************** ***********************

Enfin, la couche de normalisation par lots peut �galement r�soudre ce probl�me. Comme mentionn� pr�c�demment, quand un grand espace d'entr�e est mis en correspondance dans un petit espace d'entr�e, la question se pose, ce qui conduit � la disparition du d�riv�. Dans la figure 1, il est clair pour voir | x | devient grande. normalisation du bain pour r�duire ce probl�me en entr�e simplement normalis�, de sorte que x ne parvient pas au bord ext�rieur de la fonction sigmo�de. 3, il saisit un normalis�s, la plupart de celui-ci tombe sur une r�gion verte, dans laquelle le d�riv� ne soit pas trop petit.

Figure 3: restriction d'entr�e de fonction sigmo�de

Si vous avez des questions ou des suggestions, pensez � commentaire :)

Lire l'article suivant pour plus d'informations:

https://www.quora.com/What-is-the-vanishing-gradient-problem
https://en.wikipedia.org/wiki/Vanishing_gradient_problem
https://towardsdatascience.com/intuit-and-implement-batch-normalization-c05480333c5b

Je veux continuer � voir les articles liens et r�f�rences connexes?

Cliquez sur [ probl�me gradient disparaissent: les probl�mes, les causes et leurs solutions] signifie que vous pouvez acc�der �:

Aujourd'hui Ressources recommand�es: La culture du scientifique des donn�es routi�res

Ceci est un � manuel � avec des donn�es scientifiques et des scientifiques de donn�es connexes, il inclut �galement des statistiques traditionnelles, la programmation ou les manuels d'informatique qui ne sont pas. � G�nie des donn�es: la culture du scientifique de donn�es de route � comporte trois volets: l'un est un ensemble de donn�es � plusieurs niveaux pour discuter de ce que la science est et ce que la science et d'autres disciplines impliqu�es dans les donn�es, la seconde est la science des donn�es et le niveau d'application de la technologie, y compris des didacticiels et des �tudes de cas; en troisi�me lieu, pour �tre des praticiens et des donn�es scientifiques en herbe sont des ressources de carri�re.

Cliquez sur le lien pour obtenir: https: //ai.yanxishe.com/page/resourceDetail/614

Route de la soie

Apprenez � conna�tre la Chine

probl�me gradient dispara�tre: les probl�mes, les causes et leurs solutions signification

probl�me

raison

Pourquoi est-ce important?

solutions