Figure comprendre et � long r�seau de m�moire � court terme du cycle LSTM r�seau ferm� GRU

Transfert autoris� de Almost Human

Bonjour � tous, et bienvenue Guide illustr� de LSTM GRU. Dans cet article, Michael de LSTM et les principes derri�re le GRU commencer, puis expliquer si LSTM et GRU ont des m�canismes internes pour d'excellentes performances. Si vous voulez comprendre � la fois ce qui se passe derri�re le r�seau, cet article est pour vous pr�parer.

Si vous pr�f�rez, vous pouvez �galement regarder une version vid�o de cet article.

Les questions cl�s - la m�moire � court terme

Recurrent Neural Network (RNN) fortement affect�e par la m�moire � court terme, si la s�quence est assez longue, il sera difficile de transmettre des informations de pas de temps plus t�t pour l'arri�re de pas de temps. Donc, si vous essayez de faire le traitement d'une pr�diction de texte, RNN peut manquer des informations importantes d�s le d�but.

Dans le processus de propagation de retour, le r�seau de neurones il existe un gradient de probl�mes de circulation disparaissent. En g�n�ral, le gradient est utilis� pour mettre � jour les poids du r�seau de neurones, le gradient dispara�t probl�me est proche de z�ro gradient sera progressivement r�duite au fil du temps. Si la valeur gradient devient tr�s faible, il ne peut pas fournir suffisamment d'informations pour l'�tude.

r�gle de mise � jour gradient

Donc RNN, g�n�ralement en raison d'un gradient de pr�-couche dispara�t et l'apprentissage d'arr�t. Par cons�quent, RNN oubliera ce qu'il a vu dans la s�quence plus longue, qui ont seulement la m�moire � court terme.

Solutions --LSTM et GRU

Cr�ation LSTM et GRU peut �tre utilis� comme des solutions de m�moire � court terme, ils ont un m�canisme interne appel� � porte �, vous pouvez r�gler le flux d'informations.

Les portes peuvent �tre conserv�s ou mis au rebut analyse des donn�es dans une s�quence, de sorte qu'il peut transmettre des informations � la cha�ne de pr�diction de s�quence plus longue. Presque tous bas�s sur les derni�res r�alisations en circulation r�seau de neurones est r�alis�e par les deux r�seaux. LSTM GRU et peut �tre appliqu�e � la reconnaissance vocale, la synth�se de la parole et la g�n�ration de texte. Vous pouvez m�me les utiliser pour g�n�rer des l�gendes vid�o.

Maintenant, vous devez comprendre pourquoi traiter avec de longues s�quences de LSTM et GRU excell�. Je vais utiliser l'explication intuitive et illustration pour r�pondre � cette question, j'essaie d'�viter d'utiliser les math�matiques.

l'intuition

Eh bien, nous allons commencer par une exp�rience de pens�e. Supposons que vous d�cider d'acheter des c�r�ales de la marque La vie en regardant commentaire en ligne. Parce que nous regardons les commentaires, et juger les autres pensent qu'il est bon ou mauvais.

Quand vous lisez les commentaires, votre cerveau se souviendra inconsciemment des mots-cl�s importants. Vous concentrer sur certains, comme � incroyable � et � petit-d�jeuner �quilibr� parfait � Des mots comme. Vous ne se soucient pas de � ce �, � donner �, � all �, � devrait � et ainsi de suite. Si un ami vous demande le lendemain fait remarquer que ce que vous ne me souviens pas mot pour mot. Mais vous souvenez peut-�tre quelques-uns des faits saillants, tels que � certainement acheter �, d'autres mots vont dispara�tre de la m�moire.

Tel est le r�le LSTM ou GRU, il peut apprendre � ne conserver que les informations pertinentes � pr�voir. Dans ce cas, vous vous rappellerez les commentaires que vous faites de bons jugements.

Rappelant le r�seau de neurones r�currents

Pour comprendre comment LSTM ou GRU est de ce faire, nous allons examiner le r�seau de neurones r�currents. RNN travaille: le premier mot est converti en un vecteur lisible par machine. Ensuite, RNN trait� une s�quence de vecteur.

Une par une s�quence de traitement

Au cours du traitement, l'�tat cach� avant qu'il ne soit transmis � la s�quence suivante d'�tapes. �tant donn� que les r�seaux de m�moire � semi-cach�s, les donn�es stock�es r�seau observ�es pr�c�demment.

Laissez-passer cach� � l'�tape suivante de temps

RNN est d'une cellule a �t� observ�e pour voir comment calculer l'�tat cach�. Tout d'abord, l'entr�e et de l'�tat cach� avant combinaison dans un vecteur. Ce vecteur est maintenant l'entr�e en cours et informations entr�es pr�c�demment. Vecteur par tanh active, la sortie est une nouvelle m�moire � semi-implicite, ou d'un r�seau de neurones.

unit� RNN

fonction tangente hyperbolique (tanh) est activ�

tanh fonction d'activation pour ajuster la valeur transmise dans le r�seau de neurones, il passe une valeur comprise entre -1 et 1 compression.

entr�e tanh comprim�e entre -1 et 1

Lorsque le vecteur par le r�seau de neurones, une vari�t� d'op�rations math�matiques, il passera par de nombreuses transformations. En supposant une valeur continue multipli�e par 3, le r�sultat va exploser en croissance astronomique, ce qui conduit � des changements dans d'autres valeurs deviennent insignifiants.

L'absence de conversion vecteur tanh

la fonction tanh assure maintenue entre -1 et 1, contr�lant ainsi la sortie du r�seau de neurones. La valeur peut voir comment la fonction tanh figure reste stable dans les diff�rentes �tapes de temps par.

La variation de la fonction vectorielle tanh

Ceci est RNN. Son fonctionnement interne est faible, mais (ces courtes s�quences) aura une bonne performance dans un environnement appropri�. RNN beaucoup moins ressources informatiques qu'il utilise une version am�lior�e de LSTM et GRU.

LSTM

LSTM r�seau de neurones a courant de cycle de commande similaire, laquelle premi�re communication de donn�es de transfert pour le traitement de l'information, qui se diff�rencient par les processus au sein de la cellule.

unit�s arithm�tiques internes et LSTM

Ces op�rations internes pour permettre LSTM d'enregistrer ou d'annuler l'information, et regardez maintenant � ces op�rations peut �tre un peu difficile, nous avons donc une �tape par �tape � regarder.

Concepts de base

LSTM est le concept de base de l'unit� d'�tat, et les unit�s dans toutes sortes de portes. des moyens de transmission comme une route nationale, transmettre des informations dans la cha�ne de la s�quence. Vous pouvez le voir comme un r�seau de � m�moire �. Th�oriquement, l'unit� d'�tat peut transporter des informations sur la s�quence enti�re de processus. Ainsi, m�me si les informations de temps �tapes de pr�traitement peuvent �galement aider � l'�tape de temps suivant, l'unit� de l'�tat r�duisant ainsi efficacement la m�moire � court terme. Avec l'unit� dans l'�tat de passer diff�rentes �tapes de temps, nous pouvons ajouter ou supprimer l'�tat de l'unit� d'information par le m�canisme gating. Ces portes sont diff�rents r�seaux de neurones, peuvent �tre utilis�s pour d�terminer l'�tat de l'acc�s � l'unit� d'information. Pendant la formation, la porte peut apprendre quels sont les besoins d'information soient sauv�s ou oubli�s.

fonction sigmo�de

m�canisme gating est principalement compos� d'une fonction d'activation sigmo�de, une fonction d'activation sigmo�de similaire fonction d'activation de tanh, il contr�le la valeur entre 0 et 1, au lieu de -1 � 1. Cela aide � mettre � jour ou supprimer les donn�es, parce que tout nombre multipli� par 0 est 0, ce qui provoque la valeur de perte ou de � oubli� �. Tout nombre multipli� par lui-m�me est 1, la valeur est inchang�e, ou � sauv� �. R�seau peut savoir quelles donn�es ne sont pas importantes, peut �tre oubli�, ou quelles donn�es doivent �tre sauvegard�es.

commande num�rique sigmo�de sera comprise entre 0 et 1

Penchons-nous profond�ment dans le r�le des diverses portes, nous avons trois portes diff�rentes pour r�guler le d�bit de l'unit� de LSTM d'information, que la porte OUBLIEZ d'entr�e et de sortie des portes.

oubli� porte

Le premier est la porte oubli�e (oublier la porte), la porte de d�cider ce qui doit �tre mis au rebut ou des informations sauvegard�es. porte de m�moire, et l'information de l'entr�e de courant � partir d'un �tat masqu� pr�c�dent est transmis � la fonction sigmo�de, et comprim�es jusqu'� une valeur comprise entre 0 et 1. Les plus proche de 0 signifie rejet�s plus proche de 1 signifie que la r�tention.

op�ration de porte oubli�

Entrez dans la porte

Pour mettre � jour l'�tat des cellules, LSTM besoin d'entrer dans la porte (porte d'entr�e). Tout d'abord, nous allons pr�c�de, l'�tat cach� et l'entr�e de courant est pass� � une fonction sigmo�de, il est une valeur de 0 � 1 qui sera mise � jour par la valeur d�termin�e dans. 0 signifie sans importance, 1 indique importante. Vous pouvez �galement �tre cach� �tat et l'entr�e de courant � la fonction de transfert de tanh, de sorte que la valeur devient une valeur comprise entre -1 et 1, pour aider � r�guler le r�seau de neurones. Ensuite, la sortie sigmo�de tanh et sortie multipli�e, sortie sigmo�de d�cidera de conserver les informations importantes de la production tanh.

Entrez l'op�ration de porte

Statut unit�

Vous devriez maintenant avoir assez d'informations pour calculer l'�tat cellulaire. En premier lieu, le vecteur d'�tat de la cellule oubli�e point multipli�e par point, si elle est multipli�e par une valeur proche de 0, il est possible d'obtenir un �tat bas dans la cellule. Ensuite, l'�tape de lecture � partir de la sortie de la porte d'entr�e et le point d'addition par point, la mise � jour de cellule en rapport avec le r�seau de neurones que la nouvelle valeur, qui est un nouvel �tat de la cellule.

unit� de calcul d'�tat

grille de sortie

Enfin, la sortie de la porte (porte de sortie), la sortie de la porte d�termine le c�t� cach�. Rappelez-vous que contiennent des informations cach�es pr�c�demment entr�es. Cach�e �galement utilis� pour la pr�diction. Tout d'abord, nous implicitement devant l'�tat et l'entr�e courant passe � une fonction sigmo�de. Ensuite, nous allons modifier le statut d'unit� � la fonction tanh. Nous Tanh sortie sigmo�de et sortie multipli�e pour d�terminer l'�tat doit contenir des informations cach�es. Le nouvel �tat de la cellule et le nouvel �tat est alors transf�r� � cacher l'�tape suivante.

La sortie de l'op�ration de grille

N�cessit� de comprendre que la porte oubli�e d�termine le contenu li� aux �tapes pr�c�dentes. Entrez dans la porte de d�cider quelle information est ajout�e � partir de l'�tape en cours. Sortie c�t� d�cid� �tat implicite ce qui devrait �tre.

code d�montre

Pour ceux qui ont besoin de mieux comprendre le mod�le dans le code, voici un exemple Python pseudocode:

Python pseudocode

Tout d'abord, le pr�c�dent et l'�tat actuel d'entr�e cach� �piss� ensemble, est la moissonneuse-batteuse.

Il combinera la valeur envoy�e � l'oubli et la couche de suppression des donn�es non pertinentes.

Utilisez des calques se combinent pour cr�er un candidat, les candidats peuvent sauver ajouter � la valeur des �tats cellulaires.

Combine la valeur est envoy�e � la couche d'entr�e, cette couche d�termine les donn�es des candidats devrait �tre ajout� aux nouveaux �tats cellulaires.

Calcul de la couche oubli�e, la couche d'entr�e et le candidat de la couche, calcule un nouveau vecteur d'�tat cellulaire et l'utilisation de ces cellules en face de l'�tat.

La sortie est ensuite calcul�e.

Produit entre les �l�ments correspondants de la nouvelle unit� et l'�tat de sortie obtenu nouveau masqu�.

GRU

LSTM nous savons d�j� comment cela fonctionne, laissez-nous regarder bri�vement � GRU. GRU est une nouvelle g�n�ration de r�seau de neurones r�currents, il LSMC tr�s similaire. unit� GRU hors de l'�tat, � l'information de transmission directement avec cach�, il remet � z�ro que la porte et deux portes m�canisme de d�clenchement de mise � jour.

unit� GRU et sa porte

porte mise � jour LSTM agit comme une porte oubli�e et entrez la porte. Il d�termine �galement les informations � mettre l'ancien, ce que de nouvelles informations sont ajout�es. La porte remise � z�ro est une porte de d�cider la quantit� d'informations � oublier le pass�.

Calcul du tenseur GRU si peu par rapport � la LSTM, sa vitesse de formation est plus rapide. On ne sait pas quel est le meilleur, les chercheurs et les ing�nieurs choisissent souvent soit en fonction de leur situation r�elle.

conclusion

En r�sum�, un processus pour les donn�es de s�quence RNN utiles pour la pr�diction, mais les probl�mes de m�moire � court terme. Cr�ation LSTM et le but GRU est d'utiliser le m�canisme � porte � pour r�duire la m�moire � court terme. LSTM et GRU sont largement utilis�s dans les applications les plus profondes d'apprentissage avanc�es telles que la reconnaissance vocale, synth�se vocale, la compr�hension du langage naturel, et autres.

Route de la soie

Apprenez � conna�tre la Chine

Figure comprendre et � long r�seau de m�moire � court terme du cycle LSTM r�seau ferm� GRU