LSTM d�couvrir le myst�re de la structure, donc RNN parfait

th�se 2737 Les mots, lorsque l'apprentissage tout au long attendu 5 minute

Source: pexels.com/@chivozol-43727

r�seau de neurones r�current est pas parfait, la raison en est que deux probl�mes majeurs: explosion gradient et gradient dispara�t. explosion gradient trouv� est encore relativement simple � r�soudre gradient disparu plus difficile. M�moire � court et � long terme (Long ShortTerm m�moire, LSTM) et l'unit� de circulation de r�seau vannage (GatedRecurrent unit�, GRU) ne peut r�soudre efficacement le probl�me de la disparition du gradient, de sorte que le r�seau de neurones peut aussi r�soudre le probl�me des d�pendances de longue distance.

explosion gradient

La propagation de retour de temps (temps BackPropagationThrough, BPTT) algorithme, si le poids initial est donn� une grande valeur, couche avant change plus vite que la couche arri�re, les poids vont augmenter, ce qui conduit � un d�bordement de poids se produit valeurs NaN, le r�seau devient �galement instable.

La formation du r�seau de neurones, le signal peut �tre d�tect� en observant la pr�sence ou l'absence de gradient d'explosion:

� Formation, mod�le poids d'augmentation rapide, devenir tr�s grand.

� Formation, le mod�le droit NaN valeurs appara�t.

� La formation, chaque noeud du r�seau et la valeur d'erreur de la couche � gradient est maintenue au-dessus de 1,0.

Il y a plusieurs fa�ons de r�soudre le gradient d'explosion ci-dessous �num�re plusieurs techniques communes:

� Tout simplement, si le vecteur de gradient est sup�rieur � un certain seuil, ajustez le vecteur de gradient afin d'�viter qu'elle ne devienne trop grande, cette m�thode est appel�e gradient tronqu�e.

Utilisez la r�gularisation des poids. V�rifiez les poids du r�seau, et un poids r�seau de fonction de perte de p�nalit� g�n�r�es des valeurs plus de poids.

� R�seau A avec une m�moire � long terme ou � court � la place de l'unit� de circulation circulant gating r�seau de neurones.

� Les poids sont initialis�s ou initialisation Xavier He.

disparait gradient

Gradient disparait apparaissent g�n�ralement en fonction d'activation de gradient tr�s faible. Dans l'algorithme de r�tro-propagation, en raison du gradient tr�s faible multipli� par le poids, il deviendra progressivement plus petit jusqu'� ce qu'il disparaisse dans les r�seaux de neurones profonds, entra�nant des r�seaux de m�moire � long terme ne.

D�pendance � l'�gard course de longue distance des r�seaux de neurones r�currents est tr�s important. Afin de comprendre l'importance des personnes � charge longue distance, nous mettons le mot deux phrases suivantes par le r�seau de neurones d'entr�e de mot pour pr�dire le mot ci-dessous:

Le chat hadenjoyed manger du poisson, le poisson �tait d�licieux et avait h�te d'avoir plus.

Les chats hadenjoyed manger du poisson, le poisson �tait d�licieux et �taient impatients d'avoir plus.

� Dans ces deux phrases, le r�seau de neurones doit se rappeler ce sujet singulier et pluriel (cat) la deuxi�me phrase de l'�tape de temps d'entr�e pour pr�dire le mot les 12 premiers pas de temps.

� Dans la formation, r�tropropagation d'erreur. Pour la � couche � est plus proche de l'�tape de l'heure actuelle, son impact sera plus grand que le poids re�u � couche � avant.

* Dans des circonstances normales, le poids de la couche cyclique concentre chaque pas de temps, conform�ment aux d�riv�es partielles corrig�es. S'il n'y a pas d'inversion dans la bonne direction, le r�seau de neurones continuera � apprendre.

� Enfin, le mod�le ne peut pas �tre des poids mis � jour, les informations ne peuvent pas se rappeler le temps avant l'�tape, la grammaire ne peut pas r�soudre le probl�me � long d�pend la distance.

Il existe plusieurs fa�ons de r�soudre les disparait de gradient ci-dessous �num�re plusieurs techniques communes:

� R�seau matrice unit� d'initialisation de poids, de sorte que le risque de gradient peut dispara�tre au minimum.

� Flux de fonction redresseur (RectifiedLinear unit�, RELU) remplace la fonction tanh ou une fonction sigmo�de.

� En variante r�seau neuronal avec un long cycle ou un cycle unit� de m�moire � court terme de d�clenchement, ces deux technologies est de la r�cup�ration de donn�es de s�quence d'informations de d�pendance � longue distance d�velopp�e.

Structure de la m�moire � court et � long terme

Court et r�seau de la m�moire � long terme est une variante de r�seaux de neurones r�currents peut r�soudre le probl�me en fonction longue distance.

structure du r�seau de m�moire � court et � long terme

� Le r�seau de base est courte et des moyens de m�moire � long terme pour stocker des informations d'�tat, � savoir l'�tat de la cellule, indiqu�e par la lettre C.

� Court et les r�seaux de m�moire � long terme peuvent ajouter ou de suppression d'informations dans l'�tat cellulaire.

� Pour ajouter et le fonctionnement de l'�tat de la cellule d'information de suppression est r�alis�e par une structure appel�e � cellules � de gating.

� L'unit� gating est constitu�e d'une couche sigmo�de et un r�seau de neurones constitu� d'op�ration de multiplication par paires.

des moyens gating

� Les valeurs de sortie de la couche de sigmo�de entre 0 et 1.

* 1 � pour permettre passage complet �, 0 signifie � totalement non autoris�s � travers. �

� Court et unit� de r�seau de la m�moire � long terme comprend trois �l�ments importants, qui sont oubli�es porte, mise � jour et des portes de sortie.

structure de la porte oubli�e

�tat de la cellule de porte oubli�e est stock�e dans les informations de r�seau de la m�moire � long terme. couche sigmo�de d�termine les informations que vous souhaitez conserver, quels sont les besoins d'information � �tre retir�s de l'�tat de la cellule, nous appelons une telle couche sigmo�de � la couche � oublier porte �.

� Couche sigmo�de conform�ment � la sortie sur une couche cach�e h < t-1 > Et l'entr�e de courant x < t > Tenseur g�n�r� entre 0 et 1.

� Avant cet �tat de cellules tenseur C < t-1 > Multipli�, afin de d�terminer quelle information est utile, veulent garder, quelle information est inutile � supprimer.

Le regard en arri�re Let � l'exemple pr�c�dent:

Le chat hadenjoyed manger du poisson, le poisson �tait d�licieux et avait h�te d'avoir plus.

Les chats hadenjoyed manger du poisson, le poisson �tait d�licieux et �taient impatients d'avoir plus.

Afin de pr�voir les deux phrases de mots situ�s dans la premi�re �tape de temps 12, le r�seau de neurones doit se rappeler le sujet de la phrase est � la deuxi�me �tape de temps, � savoir, les chats singulier et pluriel.

Mod�le sera bas� sur toutes les informations saisies pr�c�demment pour pr�dire le mot les deux premi�res phrases de 12 pas de temps. �tat de la cellule doit comprendre l'objet singulier et le pluriel d'une phrase dans la deuxi�me entr�e de pas de temps.

Lorsque l'�tat de la cellule pour voir le sujet de la phrase, que les chats, il enregistrera le sujet est singulier ou au pluriel.

Mise � jour de la structure de grille

Mettre � jour la porte d�termine les nouvelles informations doivent �tre stock�es dans l'�tat cellulaire.

� � Entrez par la porte � est de d�cider ce qui doit mettre � jour la valeur de la fonction sigmo�de, qui d�livre un tenseur entre 0 et 1.

� La fonction Tanh g�n�re une nouvelle valeur candidate C ~ < t > Ce tenseur peut �galement �tre ajout� � l'�tat cellulaire.

� Ces deux tenseur obtiendra une valeur actualis�e apr�s multiplication.

* Cette mise � jour sera ajout�e � la valeur dans l'�tat cellulaire.

Dans l'exemple pr�c�dent le mod�le de langage, le sujet de la phrase sera ajout�e � l'�tat cellulaire.

structure de grille de sortie

La sortie de la porte d�termine le contenu de la sortie, les r�sultats obtenus � partir de la sortie de l'�tat de la cellule par filtration.

� Couche sigmo�de est d�termin�e par la sortie de laquelle une partie du contenu de l'�tat de la cellule.

� Sortie de valeur d'�tat de cellule lorsque la couche est comprim� par le tanh -1 � 1.

� Valeur de sortie Tanh couche sigmo�de et la couche de multiplication, de sorte que la sortie est d�termin�e par la couche sigmo�de.

Dans le mod�le de langage exemple pr�c�dent, parce que le mod�le ne voient que le sujet, il peut vouloir des informations de sortie en rapport avec le verbe, par exemple, il affichera le sujet singulier et pluriel, la forme verbe afin de pr�dire la prochaine se produira.

D�velopper � long terme le long de l'axe temporel unit� de m�moire illustr�e

bloc-notes jupyter Portail: https: //github.com/nitwmanish/Demystifying-Architecture-Of-Long-Short-Term-Memory-LSTM

conclusion

r�seaux r�currents de neurones pour le traitement des donn�es en continu, le plus gros probl�me est que le gradient de l'explosion et le gradient dispara�t, et il sera oubli� les informations de d�pendance de longue distance. M�moire � court et � long terme est une variante du r�seau de neurones r�current de r�seau qui peut apprendre des informations � charge de plus longues distances.

Cet article est con�u pour aider le lecteur � comprendre la m�moire � court et � long terme et la capacit� d'apprentissage de l'information d�pend du r�seau longue distance et explique les �l�ments cl�s des r�seaux de m�moire � long terme en d�tail, et pourquoi les r�seaux de m�moire � long terme peut r�soudre la disparition des gradients et explosion gradient probl�me.

pouces Message attention Ensemble, nous partageons l'apprentissage et le d�veloppement de l'IA sec

Route de la soie

Apprenez � conna�tre la Chine

LSTM d�couvrir le myst�re de la structure, donc RNN parfait