Ces derni�res ann�es, de plus en plus en profondeur l'�tude approfondie de l'�tude dans divers domaines ont �galement re�u beaucoup de perc�e. Sur la base de m�canisme attention de r�seau de neurones (l'attention) est devenue une recherche chaude r�cemment r�seau de neurones, j'ai appris r�cemment un m�canisme d'attention sur la base des documents de r�seau de neurones dans le domaine Traitement du langage naturel (PNL), viennent maintenant � l'attention en PNL un r�sum� des applications, et de partager avec tout le monde.

Progress 1 Attention

�m�canisme de l'attention a d'abord �t� mis en avant dans le domaine des images visuelles, il devrait �tre neuf ans pour mettre en avant l'id�e, mais vraiment le feu jusqu'� l'esprit de Google devrait �tre pris en compte dans cette �quipe de papier � Les mod�les r�currents de l'attention visuelle � , ils mod�le RNN en utilisant le m�canisme d'attention � la classification d'image. Par la suite, Bahdanau et al dans le document � Neural Traduction automatique par apprentissage conjointement � aligner et traduire � , un m�canisme similaire � l'attention de la traduction simultan�e dans la traduction automatique et align�e sur la mission, leur travail est consid�r� comme le premier � proposer m�canisme d'attention appliqu�e au domaine de la PNL. RNN a suivi un mod�le similaire bas� sur le m�canisme d'attention a commenc� � utiliser �tendent une vari�t� de t�ches PNL. R�cemment, les m�canismes d'attention � la fa�on d'utiliser CNN est devenue un sujet br�lant tout le monde. La figure ci-dessous montre l'�volution de la recherche sur les progr�s de l'attention.

2 mod�les r�currents de Visual Attention

�Avant l'introduction de la PNL Attention, je voudrais dire quelque chose g�n�ralement utilis� dans les id�es d'attention d'image. Il est repr�sentatif du papier � Mod�les r�currents de l'attention visuelle � , la motivation de leur recherche est en fait inspir�e par les m�canismes de l'attention humaine. Les gens qui effectuent image d'observation quand, en fait, pas une fois pris la position de chaque pixel de l'image enti�re sont vus, la plupart du temps en fonction des besoins de mise au point � une partie sp�cifique de l'image. Et l'avenir de l'humanit� apprendra � observer l'attention de l'image doit �tre centr�e sur la position de l'image observ�e avant. La figure est un diagramme sch�matique du mod�le de base de ce document.

�Le mod�le est l'inclusion de m�canismes d'attention (hors de la partie du cercle rouge) sur un RNN classique, par une attention � la partie de l'apprentissage d'une image � traiter, l'�tat actuel de chaque apprendra � attirer l'attention selon l'�tat pr�c�dent l, et la position actuelle de l'image d'entr�e, l'attention � traiter une partie des pixels, mais pas tous les pixels de l'image. L'avantage est que moins de pixels � traiter, r�duire la complexit� de la t�che. L'image peut �tre vu dans l'application de l'attention humaine et le m�canisme de mise au point est tr�s similaire, nous allons jeter un oeil � l'attention en usage dans la PNL.

3 sur la base de l'attention RNN en PNL

3.1 Neural Traduction automatique par apprentissage conjointement � aligner et Traduire

�Le document consid�r� comme une uvre de m�canismes d'attention � l'utilisation en PNL. Ils attention m�canisme utilise la traduction automatique de r�seau de neurones (NMT) sur, NMT est en fait une s�quence typique de mod�le de s�quence, qui est un codeur mod�le de d�codeur, l'utilisation traditionnelle de NMT deux RNN, une langue de codage de source RNN, codant pour la langue source � une dimension fixe du vecteur interm�diaire, puis d�cod�e traductions dans la langue cible, selon le mod�le d'usage traditionnel dans une figure RNN:

Ce document pr�sente un m�canisme fond� sur l'attention de NMT, mod�le � peu pr�s comme indiqu� ci-dessous:

Je ne figure pas tous les d�codeurs en jeu de tirage de connexion, dessiner seulement les deux premiers mots, en fait, derri�re les mots sont les m�mes. Vous pouvez voir l'expression (classique seulement apr�s le dernier mot a appris l'expression) l'attention de NMT dans la base traditionnelle, il est la fin de chaque mot dans l'apprentissage en langue source et de pr�dire le lien de traduction mot courant, donc le contact se fait par leur attention de conception, apr�s un bon mod�le de formation, bas�e sur l'attention de la matrice, nous pouvons obtenir la source de la matrice d'alignement et les langues cibles du. section design d'une attention particuli�re sont les suivants:

Vous pouvez voir qu'ils utilisent une formule Perceptron � chaque mot de la langue source et le lien langue cible, et puis en fonction douce pour obtenir une matrice de distribution de probabilit� normalis�e est l'attention.

Par rapport aux r�sultats NMT classique � partir des r�sultats (RNNsearch est l'attention NMT, RNNenc de NMT traditionnel) beaucoup am�lior�, la plus grande caract�ristique est qu'il peut �tre visualis� align�s et ont un avantage dans le traitement des longues peines.

3.2 approches efficaces pour la traduction Neural machine � base de l'attention

�Ce document est le deuxi�me sur un papier, un tr�s repr�sentatif des papiers, ils travaillent � dire � tous comment l'attention peut �tre �tendue dans RNN, l'application ult�rieure d'une vari�t� de mod�le bas� sur l'attention en PNL papier un r�le important dans la promotion. Dans le papier, ils proposent deux m�canismes d'attention, on est m�canisme mondial (global), un m�canisme est partiel (local).

�Nous examinons d'abord l'attention m�canisme mondial, en fait, cette id�e d'attention et le document pr�sent� est le m�me, il est le traitement du langage source tous les mots, sauf que le calcul de l'attention dans une matrice de valeurs, il propos� plusieurs versions d'extension simple.

Dans leur derni�re exp�rience pour calculer l'effet de la m�thode g�n�rale est le meilleur.

�Penchons-nous sur leur version locale propos�e. L'id�e principale est de r�duire le co�t lorsque le calcul de l'attention quand l'attention calcul pas � tous les mots du c�t� de la langue source, mais selon une des fonctions de pr�diction, la position de pr�diction Pt pour aligner le c�t� langage courant source de d�codeur, le contexte fen�tre, consid�rer que le mot dans la fen�tre.

Ce qui donne deux m�thodes de pr�diction, m locale et la p locale, l'attention au cours de la derni�re recalcul de la matrice, dans la base d'origine par une position jusqu'� pt pertinente distribution gaussienne. Les r�sultats sont meilleurs que l'auteur de l'effet global de l'attention locale.

La plus grande contribution de cet article est d'abord me dire comment vous pensez que nous pouvons �tendre l'attention des calculs, il y a la m�thode d'attention locale.

4 sur la base de l'attention CNN en PNL

�L'attention est alors bas� sur le mod�le RNN est largement utilis� au d�but de la PNL, le mod�le est non seulement une s�quence � la s�quence, toutes sortes de probl�mes peuvent �tre class�s en utilisant de tels mod�les. Ainsi, dans une �tude approfondie et RNN m�me r�seau de neurones de convolution populaire CNN que l'attention peut �galement utiliser le m�canisme? � ABCNN: Attention, bas�e sur Convolutif Neural Network pour la mod�lisation des paires de phrases � Ce document propose une m�thode utilis�e dans la troisi�me attention CNN, est l'attention dans les travaux d'exploration dans CNN plus t�t.

CNN dans la construction de vue du mod�le de la phrase classique de ce qui pr�c�de, la manipulation par un seul canal par la phrase, la phrase, puis �tudier l'expression, et enfin l'entr�e au classificateur ensemble. Une telle classification d'entr�e de mod�le avant la phrase est sans contact entre eux, les auteurs ont voulu concevoir une attention par autre phrase m�canismes canal cnn sur le lien.

�La premi�re m�thode est l'attention ABCNN0-1 avant convolution, calculer la phrase correspondante de la carte de fonction de l'attention par la matrice de l'attention, et ensuite en m�me temps que la fonction de convolution couche de carte ensemble d'entr�e d'origine. Une m�thode de calcul sp�cifique est le suivant.

�La deuxi�me m�thode est ABCNN-2 Attention lorsque mis en commun, une nouvelle pond�ration d'expression de l'attention par convolution, puis � la mise en commun, suivant le principe de la Fig.

�Le troisi�me doit �tre utilis� conjointement avec CNN dans les deux premi�res m�thodes, comme indiqu� ci-dessous

Cet article fournit une attention que nous utilisation dans la directive CNN. Maintenant, il y a beaucoup d'utilisation d'une attention bas�e sur le travail de CNN, et ont obtenu de bons r�sultats.

5 r�sum�

�Enfin, pour r�sumer. Attention, en PNL en fait, je pense que peut �tre consid�r� comme une pond�ration automatique, il peut mettre � lier deux modules diff�rents, pond�r�s par formulaire de contact. La formule actuelle du courant principal sont les suivantes:

En concevant une fonction du module module source et cible ms mt li�e, puis par une fonction douce pour obtenir la distribution de probabilit� normalis�e.

�L'attention est actuellement en PNL a �t� largement utilis�. Il a un gros avantage est que la matrice peut �tre visualis� l'attention de vous dire quelles parties concernent le r�seau de neurones au cours de la t�che.

�Mais les m�canismes d'attention et les m�canismes d'attention humaine en PNL est encore diff�rent, il est n�cessaire de calculer la base ou tous les objets � traiter, et le stockage suppl�mentaire avec une matrice � son poids, en fait, de plus en plus les frais g�n�raux. Plut�t que comme un �tre humain ne peut ignorer ne veulent pas se concentrer sur les parties � traiter seulement une partie de la pr�occupation.

r�f�rences

Bahdanau, D., Cho, K. & Bengio, Y. Neural Traduction automatique par apprentissage conjointement � aligner et � traduire. IPSC 20151-15 (2014).

Luong, M. & Manning, C. D. approches efficaces pour la traduction Neural machine � base de l'attention. 1412-1421 (2015).

Rush, A. M. & Weston, J. Un Neural mod�le de l'attention pour abstractives phrase Summarization. EMNLP (2015).

Allamanis, M., Peng, H. & Sutton, C. Convolutif Network Attention Extreme Summarization du code source. Arxiv (2016).

Hermann, K. M. et al. Machines d'enseignement � lire et � comprendre. ArXiv 1-13 (2015).

Yin, W., Ebert, S. & Sch�tze, H. Attention bas�e sur Convolutif Neural Network pour machine Comprehension. 7 (2016).

Kadlec, R., Schmid, M., Bajgar, O. & Kleindienst, J. Compr�hension de texte avec l'attention Somme r�seau lecteur arXiv :. 1603.01547v1 �(2016).

Dhingra, B., Liu, H., Cohen, W. W. & Salakhutdinov, R. Les lecteurs Gated-Attention pour texte Comprehension. (2016).

Vinyals, O. et al. Grammaire comme une langue �trang�re. ArXiv 1-10 (2015).

Wang, L., Cao, Z., De Melo, G. & Liu, Z. Classification par Acl 1298-1307 (2016) Relation Attention � plusieurs niveaux CNNs..

Zhou, P. et al. Rencontre. Assoc. Comput. Linguist. (Volume 2 Court Pap. 207-212 (2016) Attention � base d'Bidirectionnel longue m�moire � court terme pour les r�seaux Relation classification. Proc. 54e Annu..

Yang, Z. et al. NAACL (2016) R�seaux Attention hi�rarchique pour la classification des documents..

Yin W, H Sch�tze, Xiang B, et al Abcnn :. convolutionnel bas� Attention-r�seau de neurones pour la mod�lisation de paires de phrases arXiv preprint arXiv :. 1512,05193, 2015.

mnih V, N Heess, Graves A. mod�les r�currents de l'attention visuelle // Les progr�s r�alis�s dans Neural Information Processing Systems 2014 :. 2204-2212.

Route de la soie

Apprenez � conna�tre la Chine

La machine n'apprend pas: l'application du m�canisme d'attention PNL

Progress 1 Attention

2 mod�les r�currents de Visual Attention

3 sur la base de l'attention RNN en PNL

4 sur la base de l'attention CNN en PNL

5 r�sum�