Cet article est une compilation de technologie blog AI Yanxishe, le titre original:
Le problème Vanishing gradient
Auteur | Chi-Feng Wang
Traduction | éditeur Dddda | poisson Wang
Lien original:
https://towardsdatascience.com/solving-nlp-task-using-sequence2sequence-model-from-zero-to-hero-c193c1bd03d1
problème
Comme de plus en plus du réseau de neurones est ajouté à la fonction d'activation, le gradient de la fonction de perte se rapproche de 0, de sorte que la structure est difficile de former le réseau.
raison
fonction d'activation spécifique, comme une fonction sigmoïde, la grande compression d'espace entre 0 et 1. Par conséquent, même si la fonction d'entrée ne varie grandement peu changé de sortie. Ainsi, le dérivé devient insignifiant.
Figure 1: les fonctions sigmoïdes et dérivés
Par exemple, la figure une fonction sigmoïde et son dérivé. On notera que lorsque l'entrée de la fonction sigmoïde h augmente ou diminue (si | x |), le dérivé de la façon proche de zéro.
Pourquoi est-ce important?
Pour que les couches superficielles de la structure de réseau en utilisant la fonction d'activation, ce n'est pas un gros problème. Cependant, lorsque vous utilisez plusieurs couches peut provoquer le gradient trop petit pour être une bonne formation.
réseau de neurones gradient est d'utiliser rétropropagation à trouver. En bref, par le réseau de propagation de retour pour trouver la dérivée de la dernière couche de la couche réseau par la couche de se déplacer vers la couche initiale. Par la règle de la chaîne, le dérivé de chaque couche multipliée par le réseau (à partir de la première couche à la couche finale), le dérivé de couche initiale calculée.
Cependant, quand il y a n couche cachée en utilisant la fonction d'activation sigmoïde lorsque l'image, multiplié par l'inverse d'un petit n. Par conséquent, lorsque nous avons atteint la couche initiale inverse, le gradient va baisser de manière significative.
Droite un petit moyen de la couche à gradient que le poids initial et l'écart ne sera pas efficace dans la formation de mise à jour. Étant donné que ces couche centrale initiale est généralement essentielle pour l'identification des éléments de données d'entrée, l'ensemble du réseau peut entraîner l'ensemble inexacte.
solutions
Semblables Relu,, solution la plus simple est d'utiliser la fonction d'activation ne résulte pas dans un petit dérivé.
En outre réseau résiduel est une solution, parce que la couche résiduelle est prévu avant la connexion directe. Comme dans 2. La figure, la valeur résiduelle est ajoutée directement relié au début du bloc x sur le bloc d'extrémité (F (x) + x). Lei Feng Lei Feng Lei réseau de réseau de réseau Feng
Les résidus ne sont pas reliés par la fonction d'activation « de compression », ce qui entraîne une plus grande inverse globale du bloc.
Figure 2: couche résiduelle
************************************************** ***********************
Notes personnelles Traducteur: L'essence du x connecté directement sur la. h (x) = f (x) + x, h (x) de x valeur dérivée partielle de 1, le bloc 1 directement à l'extrémité la plus distale, de sorte que le gradient de la valeur après un passage à travers le intact avant cette couche, puis dans le sol, ce qui rend les poids peu profonds, vous pouvez également obtenir une bonne formation.
************************************************** ***********************
Enfin, la couche de normalisation par lots peut également résoudre ce problème. Comme mentionné précédemment, quand un grand espace d'entrée est mis en correspondance dans un petit espace d'entrée, la question se pose, ce qui conduit à la disparition du dérivé. Dans la figure 1, il est clair pour voir | x | devient grande. normalisation du bain pour réduire ce problème en entrée simplement normalisé, de sorte que x ne parvient pas au bord extérieur de la fonction sigmoïde. 3, il saisit un normalisés, la plupart de celui-ci tombe sur une région verte, dans laquelle le dérivé ne soit pas trop petit.
Figure 3: restriction d'entrée de fonction sigmoïde
Si vous avez des questions ou des suggestions, pensez à commentaire :)
Lire l'article suivant pour plus d'informations:
-
https://www.quora.com/What-is-the-vanishing-gradient-problem
-
https://en.wikipedia.org/wiki/Vanishing_gradient_problem
-
https://towardsdatascience.com/intuit-and-implement-batch-normalization-c05480333c5b
Je veux continuer à voir les articles liens et références connexes?
Cliquez sur [ problème gradient disparaissent: les problèmes, les causes et leurs solutions] signifie que vous pouvez accéder à:
Aujourd'hui Ressources recommandées: La culture du scientifique des données routières
Ceci est un « manuel » avec des données scientifiques et des scientifiques de données connexes, il inclut également des statistiques traditionnelles, la programmation ou les manuels d'informatique qui ne sont pas. « Génie des données: la culture du scientifique de données de route » comporte trois volets: l'un est un ensemble de données à plusieurs niveaux pour discuter de ce que la science est et ce que la science et d'autres disciplines impliquées dans les données, la seconde est la science des données et le niveau d'application de la technologie, y compris des didacticiels et des études de cas; en troisième lieu, pour être des praticiens et des données scientifiques en herbe sont des ressources de carrière.
Cliquez sur le lien pour obtenir: https: //ai.yanxishe.com/page/resourceDetail/614