problème gradient disparaître: les problèmes, les causes et leurs solutions signification

Cet article est une compilation de technologie blog AI Yanxishe, le titre original:

Le problème Vanishing gradient

Auteur | Chi-Feng Wang

Traduction | éditeur Dddda | poisson Wang

Lien original:

https://towardsdatascience.com/solving-nlp-task-using-sequence2sequence-model-from-zero-to-hero-c193c1bd03d1

problème

Comme de plus en plus du réseau de neurones est ajouté à la fonction d'activation, le gradient de la fonction de perte se rapproche de 0, de sorte que la structure est difficile de former le réseau.

raison

fonction d'activation spécifique, comme une fonction sigmoïde, la grande compression d'espace entre 0 et 1. Par conséquent, même si la fonction d'entrée ne varie grandement peu changé de sortie. Ainsi, le dérivé devient insignifiant.

Figure 1: les fonctions sigmoïdes et dérivés

Par exemple, la figure une fonction sigmoïde et son dérivé. On notera que lorsque l'entrée de la fonction sigmoïde h augmente ou diminue (si | x |), le dérivé de la façon proche de zéro.

Pourquoi est-ce important?

Pour que les couches superficielles de la structure de réseau en utilisant la fonction d'activation, ce n'est pas un gros problème. Cependant, lorsque vous utilisez plusieurs couches peut provoquer le gradient trop petit pour être une bonne formation.

réseau de neurones gradient est d'utiliser rétropropagation à trouver. En bref, par le réseau de propagation de retour pour trouver la dérivée de la dernière couche de la couche réseau par la couche de se déplacer vers la couche initiale. Par la règle de la chaîne, le dérivé de chaque couche multipliée par le réseau (à partir de la première couche à la couche finale), le dérivé de couche initiale calculée.

Cependant, quand il y a n couche cachée en utilisant la fonction d'activation sigmoïde lorsque l'image, multiplié par l'inverse d'un petit n. Par conséquent, lorsque nous avons atteint la couche initiale inverse, le gradient va baisser de manière significative.

Droite un petit moyen de la couche à gradient que le poids initial et l'écart ne sera pas efficace dans la formation de mise à jour. Étant donné que ces couche centrale initiale est généralement essentielle pour l'identification des éléments de données d'entrée, l'ensemble du réseau peut entraîner l'ensemble inexacte.

solutions

Semblables Relu,, solution la plus simple est d'utiliser la fonction d'activation ne résulte pas dans un petit dérivé.

En outre réseau résiduel est une solution, parce que la couche résiduelle est prévu avant la connexion directe. Comme dans 2. La figure, la valeur résiduelle est ajoutée directement relié au début du bloc x sur le bloc d'extrémité (F (x) + x). Lei Feng Lei Feng Lei réseau de réseau de réseau Feng

Les résidus ne sont pas reliés par la fonction d'activation « de compression », ce qui entraîne une plus grande inverse globale du bloc.

Figure 2: couche résiduelle

************************************************** ***********************

Notes personnelles Traducteur: L'essence du x connecté directement sur la. h (x) = f (x) + x, h (x) de x valeur dérivée partielle de 1, le bloc 1 directement à l'extrémité la plus distale, de sorte que le gradient de la valeur après un passage à travers le intact avant cette couche, puis dans le sol, ce qui rend les poids peu profonds, vous pouvez également obtenir une bonne formation.

************************************************** ***********************

Enfin, la couche de normalisation par lots peut également résoudre ce problème. Comme mentionné précédemment, quand un grand espace d'entrée est mis en correspondance dans un petit espace d'entrée, la question se pose, ce qui conduit à la disparition du dérivé. Dans la figure 1, il est clair pour voir | x | devient grande. normalisation du bain pour réduire ce problème en entrée simplement normalisé, de sorte que x ne parvient pas au bord extérieur de la fonction sigmoïde. 3, il saisit un normalisés, la plupart de celui-ci tombe sur une région verte, dans laquelle le dérivé ne soit pas trop petit.

Figure 3: restriction d'entrée de fonction sigmoïde

Si vous avez des questions ou des suggestions, pensez à commentaire :)

Lire l'article suivant pour plus d'informations:

  • https://www.quora.com/What-is-the-vanishing-gradient-problem

  • https://en.wikipedia.org/wiki/Vanishing_gradient_problem

  • https://towardsdatascience.com/intuit-and-implement-batch-normalization-c05480333c5b

Je veux continuer à voir les articles liens et références connexes?

Cliquez sur [ problème gradient disparaissent: les problèmes, les causes et leurs solutions] signifie que vous pouvez accéder à:

Aujourd'hui Ressources recommandées: La culture du scientifique des données routières

Ceci est un « manuel » avec des données scientifiques et des scientifiques de données connexes, il inclut également des statistiques traditionnelles, la programmation ou les manuels d'informatique qui ne sont pas. « Génie des données: la culture du scientifique de données de route » comporte trois volets: l'un est un ensemble de données à plusieurs niveaux pour discuter de ce que la science est et ce que la science et d'autres disciplines impliquées dans les données, la seconde est la science des données et le niveau d'application de la technologie, y compris des didacticiels et des études de cas; en troisième lieu, pour être des praticiens et des données scientifiques en herbe sont des ressources de carrière.

Cliquez sur le lien pour obtenir: https: //ai.yanxishe.com/page/resourceDetail/614

La crise est l'occasion, Tencent, Ali LoRa entrants ont fait quoi?
Précédent
les agents chargés de l'application de la loi piller les magasin de beauté, les femmes de panique fait jeter par la fenêtre des dispositifs médicaux
Prochain
Son ouvert plus de 100 kilomètres trouvé le père « perdu » le Netizen: tu es parti
Deux villes se sont réunis des experts représentant huit provinces le long du fleuve Yangtsé à Wuhan, un grand total termes de protection et le développement du fleuve Yangtsé Water Technology
Les responsables américains demandent une interdiction d'extension Huawei, Salesforce a annoncé une acquisition de blockbuster 15,7 milliards $, la réforme du système de rang Tencent | Lei Feng Matin
Chimpanzé la viande au Royaume-Uni est devenu une délicatesse de luxe? Les experts mettent en garde: vous mangez la peur causée par une infection du SIDA
Les amateurs de musique bien-être à venir! Ce week-end, le groupe a chanté River City pluritronculaire France
« Notre Maître » fin « GSG » grande lettre d'adieu Zhang Hua a de nouveau chercheur Wang Gang a fait l'éloge « philosophe »
Rare! cyberprédateurs fait l'amour court fournisseur d'électricité chinois rouge pour les surs Revolve a beaucoup contribué?
À travers la « première transition » départ long Mars « changé le monde »
Campus sur la langue! Huit plats festival de la gastronomie des collèges réunis
oeil de prêt net dans le ciel 60 mai plate-forme de prêt net pour les classements de divulgation de l'information
Ne pas acheter! Dainippon gouttes pour les yeux rouges n'a été blessé, être interdit des pays étrangers, Fuzhou ...
Ceci est un grand blanc brillant, est sans doute le ventre le plus beau du monde