Cinq carte mobile, pour voir o� la traduction automatique de nerf Attention!

[New Ji-won EXAMEN Ces derni�res ann�es, le d�veloppement rapide du nerf de traduction automatique pour faire de plus en plus sentir de traduction humaine pression Alexander, grelottant, donc un puissant m�canisme de fonctionnement � l'int�rieur de l'architecture de traduction automatique ce qui est? Cet article vous prend une s�rie de look action figure dans cette.

Au cours des derni�res d�cennies, le mod�le de traduction automatique de traduction automatique statistique a �t� la dominante jusqu'� ce que les nerfs dans la traduction automatique (NMT) est n�. Traduction automatique nerveuse (NMT) est en train d'�merger au cours des derni�res ann�es, le mode de traduction automatique, qui tente de construire et former la capacit� de lire la saisie de texte et de sortie d'un seul r�sultat de traduction r�seau de neurones � grande �chelle.

A l'origine propos� de Kalchbrenner et Blunsom (2013) et d'autres de NMT. Mieux connu cadre propos� aujourd'hui est un seq2seq-cadre de Sutskever et al. Cet article se concentrera sur la fa�on de construire un cadre et un m�canisme d'attention seq2seq bas� sur le cadre de seq2seq.

Dans l'ensemble, le d�ploiement de la couche d'attention peut �tre divis�e en quatre �tapes (en fait 5 �tapes)

�tape 0: Pr�parer cach�.

Tout d'abord pr�parer le premier d�codeur cach� (rouge) et tous les codeurs disponibles cach�s (vert). Il y a quatre codeurs et d�codeurs un �tat cach� courant cach�s dans notre exemple.

�tape 1: Obtenir chaque encodeur fraction cach�e

En fonction de score (�galement appel�e alignement ou d'un mod�le de fonction de score d'alignement) scores obtenus (scalaires). Dans cet exemple, la fonction de score est le produit de points entre le d�codeur et encodeur cach�.

Deuxi�me �tape: Courir � travers les couches de tous les points.

Nous avons mis la couche de fonction d'un score, alors que le score somme softmax de traitement (scalaire) � 1. Le score repr�sente la distribution de l'attention.

�tape 3: Chaque encodeur cach�s fois son score Softmax.

(Scalaires) en multipliant chacun des codeurs cach�s partition softmax correspondant � celui-ci, pour obtenir un alignement vecteur ou un vecteur d'annotation. Ceci est le m�canisme d'alignement.

�tape 4: R�sum� vecteur d'alignement.

R�sum� vecteur d'alignement peut g�n�rer un vecteur de contexte. Il refl�te le contexte des informations de vecteur du vecteur d'alignement pr�c�dente �tape de polym�risation.

�tape 5: Le contexte du vecteur au d�codeur.

Transfert d�pend du syst�me de traduction d'architecture sp�cifique. Nous verrons dans l'exemple suivant de la fa�on dont les diff�rentes architectures en utilisant un d�codeur de vecteur de contexte.

Le regard de d�posons sur le m�canisme de fonctionnement de plusieurs mod�les de seq2seq, pour faciliter la compr�hension, nous utilisons une description plus intuitive (pour chaque mod�le, sont allemand - traduction anglaise, par exemple).

seq2seq

Traduction du texte allemand sera lu du d�but � la fin de nouveau, a commenc� � lire mot par mot traduction en anglais, ce qui ont lu si la peine est trop long, il pourrait oublier le d�but de l'article.

Seq2seq un mod�le simple est tel, comme � face dans une couche d'attention par �tapes est inf�rieure � parler seq2seq + mod�le d'attention, ce qui suit est une repr�sentation visuelle du mod�le.

seq2seq + Attention

traduction allemande relut le texte, tout en commen�ant � mettre fin � mot-cl� enregistrement, puis a commenc� � traduire en anglais. Chaque traduction d'un mot allemand, � utiliser pour un des mots cl�s de bas.

Affecte un score � chaque mot sous le m�canisme, mettre un accent diff�rent selon les scores. La fonction est ensuite trait� fraction Softmax � l'aide du codeur et pour masquer le codeur pond�ration de polym�risation �tat cach�, obtenir un vecteur de contexte. couche d'attention peut atteindre quatre �tapes.

Ex�cutez l'attention de ce qui est le m�canisme? �

La r�ponse est: r�tropropagation, Je ne m'y attendais pas. R�tropropagation fera tout son possible pour assurer la r�alisation de la production proche de la situation r�elle. Pour r�aliser cet objectif en changeant le poids et la fonction de score RNN (le cas �ch�ant). Ces poids affectent le codeur et d�codeur cach� cach�, ce qui affecte les scores d'attention.

seq2seq avec codeur � deux voies + attention

Ce m�canisme a l'�quivalent de deux traducteurs. Une traduction en lisant le texte lors de l'enregistrement des mots cl�s. Traduction B (sup�rieure � la traduction de A, peut �tre lu � l'arri�re vers l'avant puis en arri�re traduction) sont lus mot pour mot le m�me texte allemand, et �crire des mots cl�s.

sont r�guli�rement discut�es les deux traductions afin de lire bien chaque mot. Une fois la lecture termin�e, la traduction B sera responsable des r�sultats de la discussion et une s�lection compl�te de mots-cl�s, la phrase allemande traduit litt�ralement en anglais.

Une traduction est en avant RNN, la traduction B est RNN vers l'arri�re.

En utilisant une attention � double encodeur de pile seq2seq +

Une traduction en lisant le texte lors de l'enregistrement des mots cl�s. Traduction B (plus �lev� que traduit A, peut �tre lu en arri�re � partir de l� translation vers l'avant) mot aussi lu pour mot le m�me texte allemand, et �crire des mots cl�s. Notez que la traduction primaire A lire chaque mot rapport au B. Traduction Apr�s la lecture termin�e, les deux traductions sont bas�es sur un mot-cl� complet de leur choix, une phrase traduit litt�ralement en anglais.

Google Traduction automatique neurale: seq2seq (+ + restant connexion bidirectionnelle) + empil�e avec attention huit encodeurs

Traduction �quivalente A, B, ... H pour un total de 8 traduction, de bas en haut dans une rang�e. Chaque traduction allemande sont en train de lire le m�me texte. Lire chaque mot, la traduction et la traduction A part B sera trouv�e traduite B pour trouver le contenu pour am�liorer et partager avec traduction C, et ainsi r�p�ter le processus jusqu'� ce que le H. traduction En outre, lors de la lecture du texte allemand, H traduction sera des mots-cl�s connexes bas�s sur la connaissance et de l'information � leurs dossiers et re�us.

Apr�s chaque traduction sont commande de lecture de la traduction texte anglais A commenc� � traduire le premier mot. Tout d'abord, la traduction d'un essayant de se rappeler, et il partage sa r�ponse avec le traducteur de B, traducteur B r�pond et de les partager avec une meilleure C traducteur, et donc le processus est r�p�t� jusqu'� ce que le H. traduction Ensuite, �crire la premi�re traduction de traduction H fonction de mots cl�s enregistr�s. R�p�tez ce processus jusqu'� ce que la traduction est termin�e.

Route de la soie

Apprenez � conna�tre la Chine

Cinq carte mobile, pour voir o� la traduction automatique de nerf Attention!