Auteur | Yang Li Yan

Zebian | Jia Wei

� l'heure actuelle, le principal codeur bas� sur un mod�le de traduction automatique de nerf - cadre de d�codeur, dans lequel le codeur code les �tats de source dans une continu audit d�codeur pour d�coder cette repr�sentation continue de la langue cible.

Figure 1 codeur - d�codeur de trame

Il peut �tre vu codeur - d�codeur cadre d'une lacune importante en ce qu'elle est trait�e s�par�ment de la d�claration de la source avec la phrase cible, la source ne peut �tre mod�lis� la relation entre les d�clarations de d�claration cible directement. Par exemple, seuls les �tats source du codeur en entr�e, le d�codeur seulement la phrase cible comme entr�e. m�canismes attentionnels r�cemment propos�s pour r�soudre ce probl�me avec la section de d�codeur par un codeur de pont.

La figure 2 m�canismes attentionnels

Lorsque la traduction mot � intensive �, m�canisme d'attention pour calculer la relation entre le mot cible et chaque mot source, ce qui mod�lisant directement la relation entre la source et la d�claration de phrase cible. Mais on peut aussi voir que l'attention que le m�canisme de calcul de la relation entre une phrase de mot source et cible, il ne saisit pas toute la relation entre la phrase cible et la phrase source, et ce contact au niveau de la phrase que nous voulons traduire mod�le � l'autre, nous pouvons envisager de meilleures relations de la langue source et la d�claration de sous-cible au moment de faire la prochaine d�cision.

La repr�sentation syndicale

Pour r�soudre ce probl�me est d'utiliser une id�e naturelle pour la taille de la repr�sentation plut�t que le (codeur) ou (d�codeur) tant, o� est la d�claration sous-longueur la source, l'instruction est la sous-longueur cible. Voil� pourquoi nous utilisons la � repr�sentation conjointe � (conjointe repr�sentation).

La figure 3 repr�sente un joint

Une telle d�claration est repr�sent�e comme une source et une source d'entr�e actuelle cour de sous-phrase destination mots et une cible de toute combinaison de mots sont donn�s une seule repr�sentation. En corr�lant deux phrases dans les deux mots peuvent exprimer la mod�lisation conjointe de la relation entre les phrases et les phrases.

Reformer base

Alors, comment construire un mod�le de traduction de l'attention commune exprim�e sur la base de celui-ci? Il est divis� en trois parties:

1) comment construire une repr�sentation commune sur la base de l'entr�e (insert mot)?

2) Comment l'attention de l'op�ration � une repr�sentation commune?

3) comment pr�dire l'�tat cible de la sous-repr�sentation conjointe?

Int�grer le mot

Joint � base de mot construites matrice directement int�gr� repr�sent� par une matrice de param�tres g�n�r�s de taille, dans lequel le mot source est la taille de la table, la taille de la table est le mot cible. Une telle matrice qui contient un grand nombre de param�tres. Comme nous le savons, en l'absence de contexte, un mot source est presque ind�pendante des mots cibles dans un �chantillon au hasard sur s�mantiquement. Par cons�quent, nous utilisons la combinaison de mots repr�sent�e comme une combinaison de mots, a d�clar�:

De m�me, en fonction de la position de la repr�sentation de la repr�sentation commune peut �tre obtenue en calculant la m�me id�e.

La figure 4 repr�sente le joint sur la base de mots-embedded

Lorsqu'elle est exprim�e de calcul (I, I) combinaison du mot, nous pouvons mettre le � I � et � I � ces deux mots est obtenue en additionnant la repr�sentation respective.

attention dissociables

Ne se concentrer directement sur la repr�sentation conjointe est beaucoup de temps. Vous pouvez le voir, la complexit� des m�canismes standards d'attention � une place de repr�sentation conjointe, m�me si elle a l'avantage que la couche d'utilisation est uniquement accessible repr�sentation partout.

Figure 5 m�canismes standards d'attention

Par cons�quent, nous vous proposons une attention s�parable (S�parables Attention). Il se compose de deux parties: l'attention de la cible attention (Attention cible) et la source (Attention Source).

Figure 6 attention amovible (formation)

L'attention de laquelle l'accent cible ne fonctionnent que sur la dimension de la langue cible une repr�sentation commune, alors que l'attention de foyer source ne fonctionnent que dans la langue source de dimension:

Eux. Ainsi, � l'attention de la cible en termes de complexit�, et seulement la complexit� de la source d'attention. Ainsi, l'attention de toute la complexit� s�parable, mais il n�cessite une op�ration d'acc�s de la couche � une position arbitraire de la figure.

Figure 7 attention s�parable (d�codage)

D�codant le temps, parce que le calcul indiqu� au m�me niveau sont donc ind�pendants, dans le calcul du calendrier de sortie du moment o� l'objectif ne faut concentrer l'attention dernier mot, mais juste besoin d'attirer l'attention de la source du courant d'entr�e dans la premi�re fois mots cibles.

r�duction de dimensionnalit�

Compte tenu d'une repr�sentation conjointe, comment pr�dire la d�claration cible de l'enfant? Nous savons que la taille de l'articulation est repr�sent�e, et le mod�le de traduction g�n�rale du d�codeur repr�sentation de pr�diction taille utilis�e, chaque �l�ment correspond � chaque mot du promoteur de l'instruction cible pr�dite.

L'id�e est donc op�ration de r�duction de la dimension naturelle en indiquant la taille de l'articulation devient alors la taille de la pr�vision. dimensions r�duction de dimension (r�duction) o� la langue de la source compress�e � �tre utilis� en combinaison, d�signe essentiellement le module structurel est une attention bas�e sur les caract�ristiques, � savoir la taille des particules � un seul �l�ment de l'op�ration plut�t que d'un seul mot. Il fonctionne de mani�re similaire � la fa�on dont une source d'attention, en plus de son droit d'utiliser un r�apprentissage comme une requ�te plut�t que le courant d'entr�e g�n�r� par:

Ce qui est incorpor� dans la taille de texte.

Architecture globale

Avec des mots incorpor�s, attention s�parable et la r�duction dimension, sur la base d'un exemple de mod�le d'une configuration globale d'attention reformeur-base repr�sent�e par la combinaison suivante: d'abord construit repr�sent� conjointement par le mot d'entr�e est noy�, puis une couche constitu�e de m�canismes attentionnels � transformation de nombreuses fois, les dimensions combin�es repr�sentent la sortie de la langue source sera compress� � travers dimensionnalit� op�ration de r�duction, la derni�re instruction cible de pr�vision des enfants de la repr�sentation syndicale comprim�.

Figure 8 Reformer base

Dans lequel le mod�le de couche utilis� est constitu� de quatre sous-couches: la cible de l'attention, les r�seaux de neurones feedforward, le r�seau de neurones � action directe, et l'autre source d'attention. Il convient de noter que l'op�ration de mise au point a suivi Dropout1d, tandis que le r�seau de neurones pr�compensation suivi Dropout2d.

� l'attention de la cible, il mettra en vedette le Dropout1d (neurones) le long de la source de dimension linguistique masqu�e, et la source de Dropout1d l'attention des caract�ristiques pour couvrir le long de la dimension de la langue cible. Dropout2d r�seau de neurones feed-forward mettra �galement en vedette sur la couverture le long des dimensions des langues source et cible. La raison est que la langue dans laquelle sera r�p�t�e la dimension caract�ristique de la langue source / cible en pr�sence d'une autre dimension.

Comme on le voit, faisant l'objet d'une attention lorsque la fonction de mot sur la source de 9 r�p�t�es le long de la dimension de la langue cible, alors lorsque vous utilisez Dropout cacher les caract�ristiques de la source des mots, nous devons couvrir toutes les dimensions possibles le long de la langue cible caract�ristiques r�p�titives ou caract�ristiques peuvent �tre mis au rebut r�obtenu, de sorte que les caract�ristiques de l'abandon scolaire ind�pendant encouragent le temps de d�faillance cible exprim�e dans un autre.

Figure 9, caract�ris� en double exemplaire (mise au point cible)

Reformer rapide

Peser l'efficience et l'efficacit�

Peut �tre vu de 1 tableau, par rapport � la norme de l'attention, l'attention a s�parable avant de la longueur du chemin (nombre de couches) acc�s � tout emplacement indiqu� avantages, mais attention s�parable � la complexit� de l'attention que le haut niveau .

Le tableau 1 et les longueurs de trajet de la complexit� de l'op�ration

En observant le R�formateur base, nous pouvons voir qu'il a deux probl�mes � l'origine il faut empiler un grand nombre d'attention s�parables tr�s complexe pour obtenir d'excellentes performances:

1) double comptage: besoin R�formateur base calcul� � partir du mot d�cod� incorpor� dans chaque instant, donc quand un mod�le d'information abstraite n�cessite, en particulier lorsque les informations de la langue source, il doit �tre recalcul�;

2) distribution calcul�e: le d�codage � chaque instant, le nombre de mots source des mots d'entr�e est beaucoup plus que le nombre de l'entr�e cible, de sorte que l'op�ration n�cessite un langage plus naturel du c�t� source.

Prenet

Pour r�soudre ce probl�me, nous avons introduit Prenet ce module sur la base du R�formateur base, nous avons obtenu notre mod�le R�formateur rapide. Ce mod�le est la premi�re borne de mots de langage des sources d'entr�e int�gr�s � Prenet, la langue de sortie de Prenet mot d'origine en tant que borne de source incorpor�e � l'int�rieur de remplacement � base Reformer pour un traitement ult�rieur. Structure Prenet semblable � un codeur standard transformateur.

Figure 10 R�formateur rapide

L'introduction de Prenet a r�ussi � r�duire le nombre d'attention s�parables, et la complexit� de son tr�s faible, augmentant ainsi l'efficacit� globale du mod�le. Toutefois, la validit� Prenet dommages de la th�orie de base R�formateur. Base reformeur par rapport � la longueur du trajet peut acc�der � tous les mots source, l'acc�s � reformeur-rapide � une longueur de trajet seulement au mot source, ce qui est la profondeur de Prenet.

mod�le Tuning

En application pratique, nous avons souvent besoin d'utiliser un plus grand mod�le sur les grands ensembles de donn�es. Cependant, l'utilisation d'une grande grille de recherche pour trouver un mod�le appropri� dispos� sur de grands ensembles de donn�es est tr�s chronophage, et dans lequel Transformer des techniques conventionnelles telles que l'augmentation de la taille de texte de l'int�gration r�seau plus large ou anticipatrice R�formateur pas facile � utiliser.

Pour r�soudre ce probl�me, nous avons un processus de r�glage des param�tres sur eux consid�r� comme descente de gradient dans la largeur et la profondeur en fonction de la configuration actuelle du r�seau, afin d'obtenir un ensemble optimal de validation de la performance, alors que les param�tres utilis�s en une quantit� maximale de dispositions:

Dans lequel les param�tres ultra ajuster l'�tape (largeur, profondeur) utilis�e, la performance est l'ensemble de validation, sont les param�tres du mod�le qui sont param�tres r�gl�s manuellement le montant de la limite. Dans cette perspective, l'objectif d'optimisation peut �tre obtenue peut �tre consid�r�e pour trouver le meilleur ensemble de configuration du mod�le � un montant de v�rification des param�tres de performance fixe.

Pour calculer la pente de descente de gradient utilis�, nous avons utilis� pour d�finir l'estimation de gradient. Dans lequel est calcul�e comme suit sur un gradient de profondeur:

Dans lequel un nombre d�cimal est r�gl�e manuellement. Similaire, on peut obtenir de la largeur du d�grad�. Tuning l'ensemble du processus est le suivant: Tout d'abord, les gradients estim�s, en fonction de la quantit� et des param�tres limites fix�es manuellement, calcul�e taille de pas optimal, pour obtenir la configuration du mod�le optimal.

exp�rience

Nous avons v�rifi� sur IWSLT15 (Vi-En), IWSLT14 (De-En, En-De) et NIST12 (Zh-En) quatre ensembles de donn�es, comme indiqu� dans le tableau 2:

Tableau 2 R�sultats

Vous pouvez voir, R�formateur-base / rapide sur tous les tests que l'ensemble standard de performance de base Transformer est meilleure, et les performances des deux mod�les sont similaires, mais plus vite R�formateur rapide que la base R�formateur. Notez que, R�formateur base sur cette t�che Vi-En pire que la ligne de base, il peut �tre parce que R�formateur base sur les exigences de conception de la source et l'�tat des cibles sous-sous-d�clarations longueur similaire, mais en g�n�ral correspond � la peine Vi que ce traduction en beaucoup plus longtemps.

Tableau 3 Ablation

Ablation peut �tre vu dans le tableau 3, Dropout1 / 2d peut am�liorer la capacit� de g�n�ralisation du mod�le, et Prenet peut am�liorer l'efficacit� du mod�le.

Tableau 3 Ablation

De plus, si nous venons d'augmenter deux et 50% du r�seau d'alimentation en avant-largeur R�formateur rapide, il peut d�passer transformateur grande, alors que seulement la moiti� de la quantit� de param�tres.

Figure 11 Statistiques de longueur

Gauche 11 nous dit, le mod�le R�formateur est plus enclin � g�n�rer � long rapport de d�multiplication du transformateur. Figure 11 � droite et nous disent comparer les avantages du mod�le R�formateur de base sera plus visible sur la traduction des longues phrases.

Figure 12 pr�cision des statistiques

12 nous dire, que ce soit de la position du mot cible ou un point de vue de la fr�quence des mots, la pr�cision mod�le R�formateur mieux que la ligne de base de la norme transformateur plus grand nombre.

Figure 13 exemple AttentionScape

Enfin, la Fig. 13 montre un exemple dans le cas du mot d'entr�e diff�rents mots source ou cible, la distribution de la mise au point d'entr�e de la m�me s�parable g�n�r� sont diff�rents. Cela montre la n�cessit� de la distribution conjointe.

conclusion

Nous vous proposons de mettre en uvre deux mod�les bas�s attention de la distribution conjointe. Les deux mod�les ont obtenu des performances sup�rieures sur l'ensemble des donn�es de base ou une configuration diff�rente. Bas� sur le mod�le actuel de distribution conjointe est encore tr�s primitif, nous nous attendons � l'avenir d'avoir plus de travail pour les am�liorer.

Rapport AAAI 2020:

En vertu de la nouvelle �pid�mie de coronavirus, AAAI2020 vont �galement � la r�union?

Vu refuser l'entr�e aux �tats-Unis, les participants du site AAAI2020 �chou�rent, le papier comment partager?

AAAI meilleur article publi�

AAAI 2020 l'ouverture officielle, 37% des communications accept�es en provenance de Chine, la premi�re place pendant trois ann�es cons�cutives Takeover

Une vue de texte int�gral, la connaissance carte @AAAI 2020

Hinton AAAI2020 texte int�gral du discours: Le r�seau a finalement fait la capsule droite chose

Actes de AAAI 2020: AAAI 2020 @ papier Wangjing interpr�tera (PPT t�l�charger)

Qu'est-ce que la PNL �tudie la direction du vent sur le 2020 AAAI l�?

six documents Microsoft en vedette AAAI 2020

Jingdong SKK 6 en vedette AAAI 2020 papier

AAAI 2020 s�rie de lecture de papier:

01. construire de meilleurs mod�les de reconnaissance et de traduction vocale par le biais de la traduction interactive

02. nouvelles perspectives pour explorer la � d�tection d'objet � relation mutuellement b�n�fique avec la � division d'instance � de

03. Lorsqu'une nouvelle mise en commun bilin�aire en perspective, la redondance, la nature soudaine du probl�me vient?

04. histoire en utilisant le graphique de la sc�ne pour g�n�rer une s�quence d'images pour la

05,2100 gloire du champ du roi, 1c1 pourcentage de victoires de 99,8%, Tencent doit r�aliser l'interpr�tation technique de la grippe aviaire

06. apprentissage multi-t�ches, comment concevoir un meilleur m�canisme de partage des param�tres?

07. sa langue et d'oublier? Ce mod�le peut vous aider | inverse mod�le multi-canal dictionnaire

08. DualVD: un dialogue visuel nouveau cadre

09. Avec BABELNET construire une connaissance s�m�me en plusieurs langues

10. Gully facile � remplir: fin-to-speech traduction, m�thode de pr�-convergence de la formation et de r�glage fin

11. Le temps est peut-�tre de vous deux? segments de contenu vid�o � partir d'un diagramme de temps de d�tection en deux dimensions

12. m�canismes de boule de neige pour l'apprentissage et moins de temps relation r�seau de neurones

13. En d�tectant le mod�le de caract�risation s�mantique et d�m�ler syntaxique des m�canismes c�r�braux

14. Le guidage fiducial multimodal formule multimodal abstraction automatique

15. L'utilisation du m�canisme � long d'attention pour g�n�rer la traduction de la diversit�

16. �chantillon z�ro apprendre � �largir la carte des connaissances (Vid�o Interpr�tation)

17. La r�cup�ration vid�o bas�e sur l'image du code de requ�te est open source!

18. conception de r�seau bas� sur NAS GCN (lecture vid�o)

19. diagnostic neurocognitive du syst�me �ducatif intelligent, l'apprentissage � partir des donn�es d'interfonctionnement fonction

Figure 20. La convolution en plusieurs �tapes de l'algorithme d'auto-apprentissage supervis�

21. Le nouveau mod�le, g�n�rant un dialogue plus fluide, plus personnalis� (interpr�tation vid�o, PPT ci-joint)

22. La reconnaissance de texte pour le d�couplage attention du r�seau

23. L'�tude z�ro-�chantillon sur la base de caract�ristiques visuelles contre la m�thode r�siduelle

24. Le module d'�valuation est introduit, et la ma�trise de la fid�lit� de traduction de la machine de levage (d�j� ouvert)

25. L'aide d'attitude collaborative multi-cam�ras � l'initiative pour atteindre la piste cible

26. r�examiner l'�valuation de l'image esth�tique et trouver les faits saillants point focal

27. am�lioration des objectifs de formation, afin d'am�liorer la qualit� de la traduction du mod�le non-autor�gression (d�j� ouvert)

28: balises de classification � double vue utilisant une pluralit� de faibles am�liorer les performances de classification

29. D'apr�s l'apprentissage de renforcement progressif de la politique de l'arbre

30. La repr�sentation commune bas�e sur la traduction automatique neuronal (interpr�tation vid�o)

31. Le module d'�valuation est introduit, et la fluidit� de la fid�lit� de la traduction automatique de levage (lecture vid�o)

32. Quelques fois boule de neige m�canisme de r�seau neuronal une relation d'apprentissage (interpr�tation vid�o)

33. Le non-retour auto-traduction de la machine (interpr�tation vid�o) sur la base des cibles de formation des n-uplets

34. ensemble de donn�es Examen judiciaire (interpr�tation vid�o, avec lien de t�l�chargement)

35. supervision faible segmentation s�mantique (lecture vid�o)

36. r�seaux de neurones binaires rares, ne n�cessite aucune comp�tence, pr�cision faite SOTA (interpr�tation vid�o)

Texte de la limite � 37. - Proc�d� de d�tection d'un texte de forme arbitraire

38. mod�le DCMN +: fissure � compr�hension � la lecture � des probl�mes, a remport� d'obtenir les performances du monde

39. Le double canal mod�le de raisonnement en plusieurs �tapes, un meilleur dialogue visuel pour r�soudre les probl�mes g�n�r�s

40. Inverser R? Affaiblir les caract�ristiques de saillants de la mise � niveau est d'apporter classification grains fins

41. RiskOracle: une m�thode de pr�diction accident de la circulation � grain fin espace-temps

45. La nouvelle d�tection cible du faible cadre de supervision

46. algorithme d'optimisation NAS, 10 fois plus rapide!

47. L'utilisation du m�canisme d'attention pour obtenir un positionnement optimal de la cam�ra (interpr�tation vid�o)

48. Diou et Ciou: IoU corriger dans la d�tection cible ouverte

49. Pour la m�thode d'alignement de la face vid�o de masse

50. KPNet, la poursuite du d�tecteur de visage l�ger (vid�o interpr�tation)

Route de la soie

Apprenez � conna�tre la Chine

Source et d�claration cible n'est plus ind�pendant, repr�sentent conjointement plus pour am�liorer la performance de la traduction automatique