Pourquoi LSTM si efficace? Les cinq secrets que vous devez savoir

 Source Peggy Qiao Kaer

Réseau à court et la mémoire à long terme (LSTM), en tant que réseau de neurones récurrent après une amélioration, non seulement peut résoudre le problème RNN ne peut pas gérer en fonction à longue distance, mais aussi pour résoudre une explosion de gradient de réseau de neurones commun ou disparait gradient et d'autres questions, dans la séquence de traitement données est très efficace.

Quelles sont les causes profondes derrière elle efficace? Dans cet article, un cas simple, vous amène à trouver les cinq secrets de LSTM, explique LSTM clé si efficace.

Un secret: invention LSTM car fuite de mémoire grave RNN

Avant de présenter le réseau de neurones récurrents (RNN), et montre comment les utiliser pour l'analyse des sentiments.

problème RNN est que la mémoire à distance. Par exemple, ils peuvent prédire « les nuages sont en ... » Le mot suivant dans l'expression « ciel », mais ne peut prédire le mot manquant dans la phrase suivante: « Elle a grandi en France et maintenant en Chine seulement. quelques mois. elle parle couramment ... « ( » elle a grandi en France. maintenant, elle est en Chine depuis quelques mois seulement. elle parle couramment ... « )

Avec l'intervalle allongé, RNN deviennent incapables d'apprendre les informations de connexion. Dans cet exemple, les informations les plus récentes indiquent que le mot suivant pourrait être le nom d'une langue, mais si nous voulons réduire la portée de ce que la langue, alors vous avez besoin d'aller sur une longue distance à parcourir avant que le texte « français. » Dans le texte en langage naturel, cette question est tout à fait possible de grandes différences dans les informations et où il est nécessaire de l'information. Cette différence est également courant en allemand.

Photos du blog de l'ingénierie FB Tejas Patil

Pourquoi RNN il y a un énorme problème en termes de longues séquences de texte? La conception accepte deux entrées, la longueur RNN à chaque pas de temps sont les suivants: une entrée de vecteur (par exemple, un mot dans la phrase d'entrée) et un état caché (par exemple, le mot de mémoire précédente représente).

RNN pas de temps suivant en utilisant un premier et second vecteurs d'entrée pour créer le pas de temps de sortie masquées. Par conséquent, afin de capturer des séquences longues de la sémantique, nous devons exécuter RNN sur plusieurs pas de temps sera étendu dans un réseau RNN très profond.

Lire Référence: https: //towardsdatascience.com/recurrent-neural-networks-explained-ffb9f94c5e09

longue séquence RNN est pas le seul fauteur de troubles. Comme tous les réseaux de neurones très profonds, RNN est également problématique gradient disparaît et l'explosion, il faut beaucoup de temps pour la formation. De nombreuses techniques ont été proposées pour remédier à ce problème, mais ne peut pas éliminer complètement le problème, ces technologies comprennent:

  • initialisation soigneusement les paramètres

  • Utiliser la fonction d'activation non saturé, tel que RELU

  • la normalisation des lots d'application, le gradient disparaît, abandonnant les cellules du réseau et d'autres méthodes

  • L'utilisation de rétro-propagation dans le temps arrêt

Ces méthodes ont encore leurs limites. Outre la formation depuis longtemps à l'extérieur, RNN de longue durée sont également confrontés à un autre problème: la mémoire de la première entrée va progressivement disparaître.

Après un certain temps, la bibliothèque de l'État RNN guère de trace de la première entrée. Par exemple, si l'on veut, « Je aime ce produit », commente le début d'une longue analyse émotionnelle, mais le reste des listes d'examen beaucoup peuvent faire un meilleur facteur, puis sera progressivement oublier RNN d'abord passé le produit en revue des émotions positives, et seront complètement confondus avec les commentaires négatifs.

Pour résoudre ces problèmes RNN, les chercheurs ont introduit différents types de cellules de mémoire à long terme dans l'étude. En fait, n'utilise plus la majorité RNN de base de travail est effectué par le soi-disant réseau de mémoire à long terme (LSTM) terminé. LSTM par S. Hochreiter et J. Schmidhuber invention.

Secret 2: LSTM une idée clé est « porte ».

Chaque cellules LSMC sont dans le contrôle de ce que vous voulez vous rappeler, d'oublier le contenu et comment mettre à jour la porte de la mémoire. De cette façon, le réseau LSTM pour résoudre le problème du gradient d'explosion ou gradient disparaît, et tous les autres problèmes mentionnés ci-dessus!

l'architecture cellulaire LSTM comme indiqué ci-dessous:

 Source: Université Harvard Professeur P. PROTOPAPAS Lecture Notes

h est masqué, représente la mémoire à court terme; C est un état cellulaire, ce qui indique que la mémoire à long terme; x est l'entrée.

La porte ne peut effectuer une petite conversion de la matrice, et la fonction d'activation de la fonction tanh sigmoïde peut résoudre comme par magie tous les problèmes RNN.

Dans la section suivante, nous allons oublier comment ces cellules par l'observation, la mémoire et de la mémoire pour mettre à jour son étude approfondie de ce processus.

Une histoire intéressante:

Configurons une intrigue intéressante à explorer ce tableau. Supposons que vous êtes le patron, vos employés de demander une augmentation. Vous êtes d'accord? Cela dépend de plusieurs facteurs, tels que votre humeur au moment.

Ici, nous serons traités comme les cellules du cerveau LSTM, bien sûr, nous avons pas l'intention de vous offenser cerveau intelligent.

Source: Université Harvard Professeur P. PROTOPAPAS Lecture Notes

Votre état à long terme C influencera votre décision. En moyenne, vous avez une bonne humeur 70% du temps, tandis que les 30% restants de votre budget. Ainsi, votre état de la cellule est C =.

Récemment, tout va bien pour vous, 100% d'améliorer votre bonne humeur, et vous avez la possibilité de réserver 100% du budget de fonctionnement. Cela vous amène dans un = hidden h.

Aujourd'hui, trois choses se produisent: Votre enfant a de bonnes notes aux examens scolaires, en dépit de votre mauvaise opinion de votre patron, mais vous trouvez que vous avez encore assez de temps pour terminer le travail. , L'entrée d'aujourd'hui est donc x =.

Sur la base de cette évaluation, vous donnerez à vos employés une augmentation de salaire?

Secret 3: LSTM en utilisant la « porte oubliée » d'oublier

Dans ce cas, votre première étape pourrait être de comprendre ce qui est arrivé aujourd'hui (entrée x) et les événements récents (cachés h), tous deux auront une incidence sur votre jugement à long terme de la situation (état cellule C). « Oubliez la porte » (Forget Gate) contrôle la quantité de mémoire stockée dans le passé.

Dès réception des employés demande une augmentation, votre « oublier la porte » va calculate exécuter la f_t suivante, et finalement sa valeur affectera votre mémoire à long terme.

Les poids indiqués en poids figure est arbitrairement sélectionnée pour faciliter des fins d'illustration. Leur valeur est généralement calculée lors de la formation du réseau. Les résultats sont exprimés à effacer (oublier complètement) votre mémoire à long terme, ne laissez pas influencer vos décisions aujourd'hui.

Source: Université Harvard Professeur P. PROTOPAPAS Lecture Notes

Le secret 4: LSTM souvenez-vous d'utiliser la touche "Enter Gate"

Ensuite, vous devez décider: ce qui est arrivé récemment (caché h) ce qui est arrivé aujourd'hui et quelles sont les informations (entrée x) dans le long terme, vous devez enregistrer les cas où le juge (STATUT C). LSTM en utilisant la touche « Enter Gate » (entrée porte) de décider ce qu'il faut garder à l'esprit.

Tout d'abord, vous calc I_T portes d'entrée, en raison de l'activation de la fonction sigmoïde, la valeur se situe entre 0 et 1; Ensuite, vous voulez activer la fonction tanh zoom entrée entre -1 et 1, et enfin, par addition vous ces deux nouvelles cellules sont utilisées pour estimer l'état.

Les résultats ont montré que, en fonction des informations récentes et en cours, vous êtes 100% en bon état, les employés de give payer une forte possibilité. Cela est prometteur pour vos employés.

 Source: Université Harvard Professeur P. PROTOPAPAS Lecture Notes

Secret 5: LSTM en utilisant le « état de la cellule » pour maintenir la mémoire à long terme.

Maintenant que vous savez comment les événements récents auront une incidence sur votre état. Ensuite, il est temps de mettre à jour votre jugement sur la situation à long terme qui, selon une nouvelle théorie.

Lorsqu'une nouvelle valeur est présente, LSTM à nouveau de décider comment mettre à jour sa mémoire en utilisant la porte. Gated nouvelle valeur ajoutée à la mémoire actuelle. Cette opération d'addition pour résoudre le problème disparaît explosion gradient ou gradient de RNN simple.

LSTM nouvel état est calculé en additionnant la multiplication au lieu de manière. résultat c_t est stocké comme un nouveau terme auquel cas la détermination (état cellulaire).

Votre valeur globale représente 100% du temps de maintenir une bonne humeur, et il y a toujours la possibilité d'un 100% de l'argent! Vous êtes un impeccable patron!

 Source: Université Harvard Professeur P. PROTOPAPAS Lecture Notes

Avec ces informations, vous pouvez mettre à jour la situation dans laquelle le jugement à court terme: h_t (à côté caché). des moyens de valeur que vous avez une chance de 90% à l'étape suivante pour augmenter les salaires des employés! Félicitations à lui!

 Source: Université Harvard Professeur P. PROTOPAPAS Lecture Notes

1, l'unité de circulation fermée

LSTM une unité de cycle cellulaire variante est désignée sous déclenchement, appelé GRU. GRU est Kyunghyun Cho, qui a proposé dans un document en 2014.

GRU est une cellules LSMC version simplifiée, un peu plus rapide que LSTM et la performance semble être comparable à LSTM, ce qui explique pourquoi il est de plus en plus populaire.

Source: Université Harvard Professeur P. PROTOPAPAS Lecture Notes

Comme indiqué ci-dessus, à la fois le vecteur d'état dans un vecteur. Le contrôleur contrôle la porte unique « oublier porte » et « entrées de la porte. » Si les sorties contrôleur de porte 1, la porte d'entrée ouverte, porte fermée oublier. Si la sortie est 0, et vice versa. En d'autres termes, chaque fois que la mémoire doit être stockée, son premier emplacement de stockage est supprimé.

Aucun chiffre de sortie au-dessus de la porte, à chaque étape émet le plein vecteur d'état. Cependant, l'ajout d'un nouveau dispositif de commande de grille, qui commande une partie de celui-ci sera présentée à l'état antérieur de la couche principale.

2, l'empilement de piles LSTM

LSTM en alignant une pluralité de cellules, on peut traiter la séquence de données d'entrée, par exemple,. La figure 4 présente les mots de la phrase.

Source: Université Harvard Professeur P. PROTOPAPAS Lecture Notes

LSTM unités sont généralement disposées en couches, chaque unité de l'unité de sortie est l'autre entrée. Dans cet exemple, nous avons deux couches, chacune avec quatre cellules. De cette façon, le réseau devient plus abondant, et capturé plus dépendances.

3, deux voies LSTM

RNN, LSTM GRU et a été utilisé pour analyser les séquences numériques. Parfois, dans l'analyse de la séquence de l'ordre inverse, il est significatif.

Par exemple, « le patron a dit aux employés dont il a besoin de travailler plus dur, » cette phrase, même si « il » est apparu au début, mais cette déclaration de ses moyens: les employés mentionnés à la fin de la phrase.

Par conséquent, les besoins d'analyse pour être inversées ou de l'ordre de la séquence par une combinaison de commande vers l'avant et vers l'arrière. La figure suivante illustre cette architecture dans les deux sens:

 Source: Université Harvard Professeur P. PROTOPAPAS Lecture Notes

La figure suivante illustre encore LSTM dans les deux sens. Le réseau reçoit l'ordre de la séquence originale de la partie inférieure et la partie supérieure du réseau reçoivent la même entrée dans l'ordre inverse. Les deux réseaux ne sont pas nécessairement identiques. Il est important, dont les sorties sont combinées en une prédiction finale.

Source: Université Harvard Professeur P. PROTOPAPAS Lecture Notes

Vous voulez en savoir plus secrets?

Tout comme nous venons de parler, les cellules LSMC peuvent apprendre à reconnaître entrée importante (porte d'entrée du rôle), l'entrée est stockée dans l'état à long terme, en savoir quand vous devez laisser (oublier le rôle de la porte), et dans le besoin apprendre à extraire.

LSTM a changé le paradigme de l'apprentissage de la machine, nous pouvons maintenant offrir des services par le biais de sociétés cotées en bourse les plus précieux du monde tels que Google, Amazon et Facebook pour les milliards d'utilisateurs.

Depuis la mi-2015, LSTM grandement amélioré plus de 4 milliards téléphone Android reconnaissance vocale.

Depuis Novembre 2016, l'application de LSTM dans la traduction de Google, la traduction automatique grandement améliorée.

Facebook exécuté plus de 4 milliards de traduction LSTM base tous les jours.

Depuis 2016, près de 2 milliards sur la base LSTM équipé de Siri sur l'iPhone.

questions de réponse Alexa d'Amazon basé également LSTM.

Pour en savoir plus

Si vous voulez en savoir plus d'informations sur LSTM et GRU, vous pouvez lire cet article avec une explication animée de Michael Nguyen a écrit: https: //towardsdatascience.com/illustrated-guide-to-lstms-and-gru-sa- étape par étape explication-44e9eb85bf21

Pour ceux qui préfèrent construire des modèles zéro de LSMC, l'article peut être utile: https: //towardsdatascience.com/illustrated-guide-to-lstms-and-gru-s-a-step-by-step-explanation-44e9eb85bf21

Ci-dessous, je fournirai une méthode pratique en utilisant le réseau de mise en uvre LSTM Python.

1, l'analyse des sentiments: une référence

Adresse: https: //towardsdatascience.com/sentiment-analysis-a-benchmark-903279cab44a

Sur la base de la séquence d'attention au modèle de série et transformateur au-delà de LSTM, a récemment obtenu des résultats impressionnants en termes de génération Google texte et traduction automatique de OpenAI.

2, lignes directrices de pratique NLU tâche mécanisme d'attention

Adresse: https: //towardsdatascience.com/practical-guide-to-attention-mechanism-for-nlu-tasks-ccc47be8d500

Utilisez BERT, FastText, TextCNN, transformateur, Se2seq telles que la classification de texte peut être pleinement réalisé, cela peut être trouvé dans le dépôt Github (https://github.com/brightmart/text_classification), ou vous pouvez voir mon tutoriel sur le BERT: https : Feng Lei Lei //towardsdatascience.com/bert-for-dummies-step-by-step-tutorial-fb90890ffe03 Feng Lei réseau de réseau de réseau Feng

La perception visuelle, ainsi que le poste de pilotage intelligent et, ADI peut saisir l'occasion de conduire une conduite automatique?
Précédent
anti-écoute électronique hard-core! Mac dispose spécifiques à l'iPad: la plupart mécanisme de protection stricte de l'industrie, basée sur la puce T2
Prochain
La dernière Linux Mint 20 Divulgation: Code « Ulyana », abandonner les systèmes 32 bits
300 millions $, « le père japonais de l'Internet » a vendu 14 millions d'adresses IPv4
2019 drame le plus chaud qui? 2020 drame qui se déclenche? Un article vous emmène à travers le brouillard
Jan ville d'ombre un peu féroce, ces films ne valent pas vos billets?
"Airborne Rose" début de la floraison! Nouvelle année pour la première fois pour voir le parachutiste féminine formation en parachute
Chaleureuse! Ministère de l'Éducation a publié un avis spécial, plus de 20 écoles primaires de la région avec des étudiants de retour de l'argent perdu pour trouver
Après que l'homme a fui les salaires dus 24 à Dongguan, la police a arrêté deux ans pour récupérer l'argent durement gagné pour récupérer 170000
Bien de prendre note il y a un cadeau! classe idéologique et politique, l'enseignant aux étudiants envoyer des cadeaux Ending
Ce sont des nouvelles que de nombreux stocks limite quotidienne, les actions de l'industrie des semences heureux de mentionner un bon début 2020
Tianjin Jinnan petites étendues de cour « casser » forte entrant!
Approche à la! les institutions de Tianjin pour donner à ces personnes un bonus!
Fin salaire était dû? Nous vous soutenons!