LSTM découvrir le mystère de la structure, donc RNN parfait

thèse 2737 Les mots, lorsque l'apprentissage tout au long attendu 5 minute

Source: pexels.com/@chivozol-43727

réseau de neurones récurrent est pas parfait, la raison en est que deux problèmes majeurs: explosion gradient et gradient disparaît. explosion gradient trouvé est encore relativement simple à résoudre gradient disparu plus difficile. Mémoire à court et à long terme (Long ShortTerm mémoire, LSTM) et l'unité de circulation de réseau vannage (GatedRecurrent unité, GRU) ne peut résoudre efficacement le problème de la disparition du gradient, de sorte que le réseau de neurones peut aussi résoudre le problème des dépendances de longue distance.

explosion gradient

La propagation de retour de temps (temps BackPropagationThrough, BPTT) algorithme, si le poids initial est donné une grande valeur, couche avant change plus vite que la couche arrière, les poids vont augmenter, ce qui conduit à un débordement de poids se produit valeurs NaN, le réseau devient également instable.

La formation du réseau de neurones, le signal peut être détecté en observant la présence ou l'absence de gradient d'explosion:

· Formation, modèle poids d'augmentation rapide, devenir très grand.

· Formation, le modèle droit NaN valeurs apparaît.

· La formation, chaque noeud du réseau et la valeur d'erreur de la couche à gradient est maintenue au-dessus de 1,0.

Il y a plusieurs façons de résoudre le gradient d'explosion ci-dessous énumère plusieurs techniques communes:

· Tout simplement, si le vecteur de gradient est supérieur à un certain seuil, ajustez le vecteur de gradient afin d'éviter qu'elle ne devienne trop grande, cette méthode est appelée gradient tronquée.

Utilisez la régularisation des poids. Vérifiez les poids du réseau, et un poids réseau de fonction de perte de pénalité générées des valeurs plus de poids.

· Réseau A avec une mémoire à long terme ou à court à la place de l'unité de circulation circulant gating réseau de neurones.

· Les poids sont initialisés ou initialisation Xavier He.

disparait gradient

Gradient disparait apparaissent généralement en fonction d'activation de gradient très faible. Dans l'algorithme de rétro-propagation, en raison du gradient très faible multiplié par le poids, il deviendra progressivement plus petit jusqu'à ce qu'il disparaisse dans les réseaux de neurones profonds, entraînant des réseaux de mémoire à long terme ne.

Dépendance à l'égard course de longue distance des réseaux de neurones récurrents est très important. Afin de comprendre l'importance des personnes à charge longue distance, nous mettons le mot deux phrases suivantes par le réseau de neurones d'entrée de mot pour prédire le mot ci-dessous:

Le chat hadenjoyed manger du poisson, le poisson était délicieux et avait hâte d'avoir plus.

Les chats hadenjoyed manger du poisson, le poisson était délicieux et étaient impatients d'avoir plus.

· Dans ces deux phrases, le réseau de neurones doit se rappeler ce sujet singulier et pluriel (cat) la deuxième phrase de l'étape de temps d'entrée pour prédire le mot les 12 premiers pas de temps.

· Dans la formation, rétropropagation d'erreur. Pour la « couche » est plus proche de l'étape de l'heure actuelle, son impact sera plus grand que le poids reçu « couche » avant.

* Dans des circonstances normales, le poids de la couche cyclique concentre chaque pas de temps, conformément aux dérivées partielles corrigées. S'il n'y a pas d'inversion dans la bonne direction, le réseau de neurones continuera à apprendre.

· Enfin, le modèle ne peut pas être des poids mis à jour, les informations ne peuvent pas se rappeler le temps avant l'étape, la grammaire ne peut pas résoudre le problème à long dépend la distance.

Il existe plusieurs façons de résoudre les disparait de gradient ci-dessous énumère plusieurs techniques communes:

· Réseau matrice unité d'initialisation de poids, de sorte que le risque de gradient peut disparaître au minimum.

· Flux de fonction redresseur (RectifiedLinear unité, RELU) remplace la fonction tanh ou une fonction sigmoïde.

· En variante réseau neuronal avec un long cycle ou un cycle unité de mémoire à court terme de déclenchement, ces deux technologies est de la récupération de données de séquence d'informations de dépendance à longue distance développée.

Structure de la mémoire à court et à long terme

Court et réseau de la mémoire à long terme est une variante de réseaux de neurones récurrents peut résoudre le problème en fonction longue distance.

structure du réseau de mémoire à court et à long terme

· Le réseau de base est courte et des moyens de mémoire à long terme pour stocker des informations d'état, à savoir l'état de la cellule, indiquée par la lettre C.

· Court et les réseaux de mémoire à long terme peuvent ajouter ou de suppression d'informations dans l'état cellulaire.

· Pour ajouter et le fonctionnement de l'état de la cellule d'information de suppression est réalisée par une structure appelée « cellules » de gating.

· L'unité gating est constituée d'une couche sigmoïde et un réseau de neurones constitué d'opération de multiplication par paires.

des moyens gating

· Les valeurs de sortie de la couche de sigmoïde entre 0 et 1.

* 1 « pour permettre passage complet », 0 signifie « totalement non autorisés à travers. »

· Court et unité de réseau de la mémoire à long terme comprend trois éléments importants, qui sont oubliées porte, mise à jour et des portes de sortie.

structure de la porte oubliée

structure de la porte oubliée

état de la cellule de porte oubliée est stockée dans les informations de réseau de la mémoire à long terme. couche sigmoïde détermine les informations que vous souhaitez conserver, quels sont les besoins d'information à être retirés de l'état de la cellule, nous appelons une telle couche sigmoïde à la couche « oublier porte ».

· Couche sigmoïde conformément à la sortie sur une couche cachée h < t-1 > Et l'entrée de courant x < t > Tenseur généré entre 0 et 1.

· Avant cet état de cellules tenseur C < t-1 > Multiplié, afin de déterminer quelle information est utile, veulent garder, quelle information est inutile à supprimer.

Le regard en arrière Let à l'exemple précédent:

Le chat hadenjoyed manger du poisson, le poisson était délicieux et avait hâte d'avoir plus.

Les chats hadenjoyed manger du poisson, le poisson était délicieux et étaient impatients d'avoir plus.

Afin de prévoir les deux phrases de mots situés dans la première étape de temps 12, le réseau de neurones doit se rappeler le sujet de la phrase est à la deuxième étape de temps, à savoir, les chats singulier et pluriel.

Modèle sera basé sur toutes les informations saisies précédemment pour prédire le mot les deux premières phrases de 12 pas de temps. état de la cellule doit comprendre l'objet singulier et le pluriel d'une phrase dans la deuxième entrée de pas de temps.

Lorsque l'état de la cellule pour voir le sujet de la phrase, que les chats, il enregistrera le sujet est singulier ou au pluriel.

Mise à jour de la structure de grille

Mise à jour de la structure de grille

Mettre à jour la porte détermine les nouvelles informations doivent être stockées dans l'état cellulaire.

· « Entrez par la porte » est de décider ce qui doit mettre à jour la valeur de la fonction sigmoïde, qui délivre un tenseur entre 0 et 1.

· La fonction Tanh génère une nouvelle valeur candidate C ~ < t > Ce tenseur peut également être ajouté à l'état cellulaire.

· Ces deux tenseur obtiendra une valeur actualisée après multiplication.

* Cette mise à jour sera ajoutée à la valeur dans l'état cellulaire.

Dans l'exemple précédent le modèle de langage, le sujet de la phrase sera ajoutée à l'état cellulaire.

structure de grille de sortie

structure de grille de sortie

La sortie de la porte détermine le contenu de la sortie, les résultats obtenus à partir de la sortie de l'état de la cellule par filtration.

· Couche sigmoïde est déterminée par la sortie de laquelle une partie du contenu de l'état de la cellule.

· Sortie de valeur d'état de cellule lorsque la couche est comprimé par le tanh -1 à 1.

· Valeur de sortie Tanh couche sigmoïde et la couche de multiplication, de sorte que la sortie est déterminée par la couche sigmoïde.

Dans le modèle de langage exemple précédent, parce que le modèle ne voient que le sujet, il peut vouloir des informations de sortie en rapport avec le verbe, par exemple, il affichera le sujet singulier et pluriel, la forme verbe afin de prédire la prochaine se produira.

Développer à long terme le long de l'axe temporel unité de mémoire illustrée

bloc-notes jupyter Portail: https: //github.com/nitwmanish/Demystifying-Architecture-Of-Long-Short-Term-Memory-LSTM

conclusion

réseaux récurrents de neurones pour le traitement des données en continu, le plus gros problème est que le gradient de l'explosion et le gradient disparaît, et il sera oublié les informations de dépendance de longue distance. Mémoire à court et à long terme est une variante du réseau de neurones récurrent de réseau qui peut apprendre des informations à charge de plus longues distances.

Cet article est conçu pour aider le lecteur à comprendre la mémoire à court et à long terme et la capacité d'apprentissage de l'information dépend du réseau longue distance et explique les éléments clés des réseaux de mémoire à long terme en détail, et pourquoi les réseaux de mémoire à long terme peut résoudre la disparition des gradients et explosion gradient problème.

pouces Message attention
Ensemble, nous partageons l'apprentissage et le développement de l'IA sec
Suning achat des sorts 808 Jour: total d'une journée de 26 millions de commandes individuelles
Précédent
Jupyter Notebooks trois __gVirt_NP_NNS_NNPS<__ fonctionnalités supplémentaires facile à piloter
Prochain
Puissants arrière-plan « Pokémon » et des tours étranges animaux, bataille aussi pour l'imposer?
« Pokémon » la température la plus élevée des cinq elfes, la plupart de la destruction du monde sont seuls
département ver « Pokémon » cricket haut-parleurs interprète, bataille nette que lorsque la main sans défense?
explosion d'une mine Gélatine! Lvpi enfin crevé
viande artificielle, un morceau de 345 yuans
Aujourd'hui, le son de base | lourd! 2019 liste préliminaire des candidats publiés académicien de l'Académie chinoise des sciences a coopté
Effrayant! A seulement 20 heures pour passer 18 dollars, 11 millions de mots de passe instantanément pouvez Decipher
Comment comprendre les utilisateurs et la valeur ? (Y compris la confusion la plus réelle et les questions-réponses pour les nouveaux arrivants sur les produits)
Juste, avertissement haute température de Shanghai realize dix éclats! Cependant, certaines personnes transpirent trop le chaos ne peut pas payer
Faisant valoir depuis longtemps sur le terrain, le défendeur a fait une jurez! Retournez le résultat, le juge: la première fois voir
Nord Li Wen-Jie chanson: Région inconnue autonome technologie de navigation intelligente véhicule à l'espace aérien de temps
Cours avancé: la mise en place d'une nouvelle structure à deux étages avec un nerf Python