Pourquoi LSTM si efficace? Les cinq secrets que vous devez savoir

�Source Peggy Qiao Kaer

R�seau � court et la m�moire � long terme (LSTM), en tant que r�seau de neurones r�current apr�s une am�lioration, non seulement peut r�soudre le probl�me RNN ne peut pas g�rer en fonction � longue distance, mais aussi pour r�soudre une explosion de gradient de r�seau de neurones commun ou disparait gradient et d'autres questions, dans la s�quence de traitement donn�es est tr�s efficace.

Quelles sont les causes profondes derri�re elle efficace? Dans cet article, un cas simple, vous am�ne � trouver les cinq secrets de LSTM, explique LSTM cl� si efficace.

Un secret: invention LSTM car fuite de m�moire grave RNN

Avant de pr�senter le r�seau de neurones r�currents (RNN), et montre comment les utiliser pour l'analyse des sentiments.

probl�me RNN est que la m�moire � distance. Par exemple, ils peuvent pr�dire � les nuages sont en ... � Le mot suivant dans l'expression � ciel �, mais ne peut pr�dire le mot manquant dans la phrase suivante: � Elle a grandi en France et maintenant en Chine seulement. quelques mois. elle parle couramment ... � ( � elle a grandi en France. maintenant, elle est en Chine depuis quelques mois seulement. elle parle couramment ... � )

Avec l'intervalle allong�, RNN deviennent incapables d'apprendre les informations de connexion. Dans cet exemple, les informations les plus r�centes indiquent que le mot suivant pourrait �tre le nom d'une langue, mais si nous voulons r�duire la port�e de ce que la langue, alors vous avez besoin d'aller sur une longue distance � parcourir avant que le texte � fran�ais. � Dans le texte en langage naturel, cette question est tout � fait possible de grandes diff�rences dans les informations et o� il est n�cessaire de l'information. Cette diff�rence est �galement courant en allemand.

Photos du blog de l'ing�nierie FB Tejas Patil

Pourquoi RNN il y a un �norme probl�me en termes de longues s�quences de texte? La conception accepte deux entr�es, la longueur RNN � chaque pas de temps sont les suivants: une entr�e de vecteur (par exemple, un mot dans la phrase d'entr�e) et un �tat cach� (par exemple, le mot de m�moire pr�c�dente repr�sente).

RNN pas de temps suivant en utilisant un premier et second vecteurs d'entr�e pour cr�er le pas de temps de sortie masqu�es. Par cons�quent, afin de capturer des s�quences longues de la s�mantique, nous devons ex�cuter RNN sur plusieurs pas de temps sera �tendu dans un r�seau RNN tr�s profond.

Lire R�f�rence: https: //towardsdatascience.com/recurrent-neural-networks-explained-ffb9f94c5e09

longue s�quence RNN est pas le seul fauteur de troubles. Comme tous les r�seaux de neurones tr�s profonds, RNN est �galement probl�matique gradient dispara�t et l'explosion, il faut beaucoup de temps pour la formation. De nombreuses techniques ont �t� propos�es pour rem�dier � ce probl�me, mais ne peut pas �liminer compl�tement le probl�me, ces technologies comprennent:

initialisation soigneusement les param�tres
Utiliser la fonction d'activation non satur�, tel que RELU
la normalisation des lots d'application, le gradient dispara�t, abandonnant les cellules du r�seau et d'autres m�thodes
L'utilisation de r�tro-propagation dans le temps arr�t

Ces m�thodes ont encore leurs limites. Outre la formation depuis longtemps � l'ext�rieur, RNN de longue dur�e sont �galement confront�s � un autre probl�me: la m�moire de la premi�re entr�e va progressivement dispara�tre.

Apr�s un certain temps, la biblioth�que de l'�tat RNN gu�re de trace de la premi�re entr�e. Par exemple, si l'on veut, � Je aime ce produit �, commente le d�but d'une longue analyse �motionnelle, mais le reste des listes d'examen beaucoup peuvent faire un meilleur facteur, puis sera progressivement oublier RNN d'abord pass� le produit en revue des �motions positives, et seront compl�tement confondus avec les commentaires n�gatifs.

Pour r�soudre ces probl�mes RNN, les chercheurs ont introduit diff�rents types de cellules de m�moire � long terme dans l'�tude. En fait, n'utilise plus la majorit� RNN de base de travail est effectu� par le soi-disant r�seau de m�moire � long terme (LSTM) termin�. LSTM par S. Hochreiter et J. Schmidhuber invention.

Secret 2: LSTM une id�e cl� est � porte �.

Chaque cellules LSMC sont dans le contr�le de ce que vous voulez vous rappeler, d'oublier le contenu et comment mettre � jour la porte de la m�moire. De cette fa�on, le r�seau LSTM pour r�soudre le probl�me du gradient d'explosion ou gradient dispara�t, et tous les autres probl�mes mentionn�s ci-dessus!

l'architecture cellulaire LSTM comme indiqu� ci-dessous:

�Source: Universit� Harvard Professeur P. PROTOPAPAS Lecture Notes

h est masqu�, repr�sente la m�moire � court terme; C est un �tat cellulaire, ce qui indique que la m�moire � long terme; x est l'entr�e.

La porte ne peut effectuer une petite conversion de la matrice, et la fonction d'activation de la fonction tanh sigmo�de peut r�soudre comme par magie tous les probl�mes RNN.

Dans la section suivante, nous allons oublier comment ces cellules par l'observation, la m�moire et de la m�moire pour mettre � jour son �tude approfondie de ce processus.

Une histoire int�ressante:

Configurons une intrigue int�ressante � explorer ce tableau. Supposons que vous �tes le patron, vos employ�s de demander une augmentation. Vous �tes d'accord? Cela d�pend de plusieurs facteurs, tels que votre humeur au moment.

Ici, nous serons trait�s comme les cellules du cerveau LSTM, bien s�r, nous avons pas l'intention de vous offenser cerveau intelligent.

Source: Universit� Harvard Professeur P. PROTOPAPAS Lecture Notes

Votre �tat � long terme C influencera votre d�cision. En moyenne, vous avez une bonne humeur 70% du temps, tandis que les 30% restants de votre budget. Ainsi, votre �tat de la cellule est C =.

R�cemment, tout va bien pour vous, 100% d'am�liorer votre bonne humeur, et vous avez la possibilit� de r�server 100% du budget de fonctionnement. Cela vous am�ne dans un = hidden h.

Aujourd'hui, trois choses se produisent: Votre enfant a de bonnes notes aux examens scolaires, en d�pit de votre mauvaise opinion de votre patron, mais vous trouvez que vous avez encore assez de temps pour terminer le travail. , L'entr�e d'aujourd'hui est donc x =.

Sur la base de cette �valuation, vous donnerez � vos employ�s une augmentation de salaire?

Secret 3: LSTM en utilisant la � porte oubli�e � d'oublier

Dans ce cas, votre premi�re �tape pourrait �tre de comprendre ce qui est arriv� aujourd'hui (entr�e x) et les �v�nements r�cents (cach�s h), tous deux auront une incidence sur votre jugement � long terme de la situation (�tat cellule C). � Oubliez la porte � (Forget Gate) contr�le la quantit� de m�moire stock�e dans le pass�.

D�s r�ception des employ�s demande une augmentation, votre � oublier la porte � va calculate ex�cuter la f_t suivante, et finalement sa valeur affectera votre m�moire � long terme.

Les poids indiqu�s en poids figure est arbitrairement s�lectionn�e pour faciliter des fins d'illustration. Leur valeur est g�n�ralement calcul�e lors de la formation du r�seau. Les r�sultats sont exprim�s � effacer (oublier compl�tement) votre m�moire � long terme, ne laissez pas influencer vos d�cisions aujourd'hui.

Source: Universit� Harvard Professeur P. PROTOPAPAS Lecture Notes

Le secret 4: LSTM souvenez-vous d'utiliser la touche "Enter Gate"

Ensuite, vous devez d�cider: ce qui est arriv� r�cemment (cach� h) ce qui est arriv� aujourd'hui et quelles sont les informations (entr�e x) dans le long terme, vous devez enregistrer les cas o� le juge (STATUT C). LSTM en utilisant la touche � Enter Gate � (entr�e porte) de d�cider ce qu'il faut garder � l'esprit.

Tout d'abord, vous calc I_T portes d'entr�e, en raison de l'activation de la fonction sigmo�de, la valeur se situe entre 0 et 1; Ensuite, vous voulez activer la fonction tanh zoom entr�e entre -1 et 1, et enfin, par addition vous ces deux nouvelles cellules sont utilis�es pour estimer l'�tat.

Les r�sultats ont montr� que, en fonction des informations r�centes et en cours, vous �tes 100% en bon �tat, les employ�s de give payer une forte possibilit�. Cela est prometteur pour vos employ�s.

�Source: Universit� Harvard Professeur P. PROTOPAPAS Lecture Notes

Secret 5: LSTM en utilisant le � �tat de la cellule � pour maintenir la m�moire � long terme.

Maintenant que vous savez comment les �v�nements r�cents auront une incidence sur votre �tat. Ensuite, il est temps de mettre � jour votre jugement sur la situation � long terme qui, selon une nouvelle th�orie.

Lorsqu'une nouvelle valeur est pr�sente, LSTM � nouveau de d�cider comment mettre � jour sa m�moire en utilisant la porte. Gated nouvelle valeur ajout�e � la m�moire actuelle. Cette op�ration d'addition pour r�soudre le probl�me dispara�t explosion gradient ou gradient de RNN simple.

LSTM nouvel �tat est calcul� en additionnant la multiplication au lieu de mani�re. r�sultat c_t est stock� comme un nouveau terme auquel cas la d�termination (�tat cellulaire).

Votre valeur globale repr�sente 100% du temps de maintenir une bonne humeur, et il y a toujours la possibilit� d'un 100% de l'argent! Vous �tes un impeccable patron!

�Source: Universit� Harvard Professeur P. PROTOPAPAS Lecture Notes

Avec ces informations, vous pouvez mettre � jour la situation dans laquelle le jugement � court terme: h_t (� c�t� cach�). des moyens de valeur que vous avez une chance de 90% � l'�tape suivante pour augmenter les salaires des employ�s! F�licitations � lui!

�Source: Universit� Harvard Professeur P. PROTOPAPAS Lecture Notes

1, l'unit� de circulation ferm�e

LSTM une unit� de cycle cellulaire variante est d�sign�e sous d�clenchement, appel� GRU. GRU est Kyunghyun Cho, qui a propos� dans un document en 2014.

GRU est une cellules LSMC version simplifi�e, un peu plus rapide que LSTM et la performance semble �tre comparable � LSTM, ce qui explique pourquoi il est de plus en plus populaire.

Source: Universit� Harvard Professeur P. PROTOPAPAS Lecture Notes

Comme indiqu� ci-dessus, � la fois le vecteur d'�tat dans un vecteur. Le contr�leur contr�le la porte unique � oublier porte � et � entr�es de la porte. � Si les sorties contr�leur de porte 1, la porte d'entr�e ouverte, porte ferm�e oublier. Si la sortie est 0, et vice versa. En d'autres termes, chaque fois que la m�moire doit �tre stock�e, son premier emplacement de stockage est supprim�.

Aucun chiffre de sortie au-dessus de la porte, � chaque �tape �met le plein vecteur d'�tat. Cependant, l'ajout d'un nouveau dispositif de commande de grille, qui commande une partie de celui-ci sera pr�sent�e � l'�tat ant�rieur de la couche principale.

2, l'empilement de piles LSTM

LSTM en alignant une pluralit� de cellules, on peut traiter la s�quence de donn�es d'entr�e, par exemple,. La figure 4 pr�sente les mots de la phrase.

Source: Universit� Harvard Professeur P. PROTOPAPAS Lecture Notes

LSTM unit�s sont g�n�ralement dispos�es en couches, chaque unit� de l'unit� de sortie est l'autre entr�e. Dans cet exemple, nous avons deux couches, chacune avec quatre cellules. De cette fa�on, le r�seau devient plus abondant, et captur� plus d�pendances.

3, deux voies LSTM

RNN, LSTM GRU et a �t� utilis� pour analyser les s�quences num�riques. Parfois, dans l'analyse de la s�quence de l'ordre inverse, il est significatif.

Par exemple, � le patron a dit aux employ�s dont il a besoin de travailler plus dur, � cette phrase, m�me si � il � est apparu au d�but, mais cette d�claration de ses moyens: les employ�s mentionn�s � la fin de la phrase.

Par cons�quent, les besoins d'analyse pour �tre invers�es ou de l'ordre de la s�quence par une combinaison de commande vers l'avant et vers l'arri�re. La figure suivante illustre cette architecture dans les deux sens:

�Source: Universit� Harvard Professeur P. PROTOPAPAS Lecture Notes

La figure suivante illustre encore LSTM dans les deux sens. Le r�seau re�oit l'ordre de la s�quence originale de la partie inf�rieure et la partie sup�rieure du r�seau re�oivent la m�me entr�e dans l'ordre inverse. Les deux r�seaux ne sont pas n�cessairement identiques. Il est important, dont les sorties sont combin�es en une pr�diction finale.

Source: Universit� Harvard Professeur P. PROTOPAPAS Lecture Notes

Vous voulez en savoir plus secrets?

Tout comme nous venons de parler, les cellules LSMC peuvent apprendre � reconna�tre entr�e importante (porte d'entr�e du r�le), l'entr�e est stock�e dans l'�tat � long terme, en savoir quand vous devez laisser (oublier le r�le de la porte), et dans le besoin apprendre � extraire.

LSTM a chang� le paradigme de l'apprentissage de la machine, nous pouvons maintenant offrir des services par le biais de soci�t�s cot�es en bourse les plus pr�cieux du monde tels que Google, Amazon et Facebook pour les milliards d'utilisateurs.

Depuis la mi-2015, LSTM grandement am�lior� plus de 4 milliards t�l�phone Android reconnaissance vocale.

Depuis Novembre 2016, l'application de LSTM dans la traduction de Google, la traduction automatique grandement am�lior�e.

Facebook ex�cut� plus de 4 milliards de traduction LSTM base tous les jours.

Depuis 2016, pr�s de 2 milliards sur la base LSTM �quip� de Siri sur l'iPhone.

questions de r�ponse Alexa d'Amazon bas� �galement LSTM.

Pour en savoir plus

Si vous voulez en savoir plus d'informations sur LSTM et GRU, vous pouvez lire cet article avec une explication anim�e de Michael Nguyen a �crit: https: //towardsdatascience.com/illustrated-guide-to-lstms-and-gru-sa- �tape par �tape explication-44e9eb85bf21

Pour ceux qui pr�f�rent construire des mod�les z�ro de LSMC, l'article peut �tre utile: https: //towardsdatascience.com/illustrated-guide-to-lstms-and-gru-s-a-step-by-step-explanation-44e9eb85bf21

Ci-dessous, je fournirai une m�thode pratique en utilisant le r�seau de mise en uvre LSTM Python.

1, l'analyse des sentiments: une r�f�rence

Adresse: https: //towardsdatascience.com/sentiment-analysis-a-benchmark-903279cab44a

Sur la base de la s�quence d'attention au mod�le de s�rie et transformateur au-del� de LSTM, a r�cemment obtenu des r�sultats impressionnants en termes de g�n�ration Google texte et traduction automatique de OpenAI.

2, lignes directrices de pratique NLU t�che m�canisme d'attention

Adresse: https: //towardsdatascience.com/practical-guide-to-attention-mechanism-for-nlu-tasks-ccc47be8d500

Utilisez BERT, FastText, TextCNN, transformateur, Se2seq telles que la classification de texte peut �tre pleinement r�alis�, cela peut �tre trouv� dans le d�p�t Github (https://github.com/brightmart/text_classification), ou vous pouvez voir mon tutoriel sur le BERT: https : Feng Lei Lei //towardsdatascience.com/bert-for-dummies-step-by-step-tutorial-fb90890ffe03 Feng Lei r�seau de r�seau de r�seau Feng

Route de la soie

Apprenez � conna�tre la Chine

Pourquoi LSTM si efficace? Les cinq secrets que vous devez savoir

Un secret: invention LSTM car fuite de m�moire grave RNN

Secret 2: LSTM une id�e cl� est � porte �.

Secret 3: LSTM en utilisant la � porte oubli�e � d'oublier

Le secret 4: LSTM souvenez-vous d'utiliser la touche "Enter Gate"

Secret 5: LSTM en utilisant le � �tat de la cellule � pour maintenir la m�moire � long terme.

Vous voulez en savoir plus secrets?

Pour en savoir plus