Source et déclaration cible n'est plus indépendant, représentent conjointement plus pour améliorer la performance de la traduction automatique

Auteur | Yang Li Yan

Zebian | Jia Wei

À l'heure actuelle, le principal codeur basé sur un modèle de traduction automatique de nerf - cadre de décodeur, dans lequel le codeur code les états de source dans une continu audit décodeur pour décoder cette représentation continue de la langue cible.

Figure 1 codeur - décodeur de trame

Il peut être vu codeur - décodeur cadre d'une lacune importante en ce qu'elle est traitée séparément de la déclaration de la source avec la phrase cible, la source ne peut être modélisé la relation entre les déclarations de déclaration cible directement. Par exemple, seuls les états source du codeur en entrée, le décodeur seulement la phrase cible comme entrée. mécanismes attentionnels récemment proposés pour résoudre ce problème avec la section de décodeur par un codeur de pont.

La figure 2 mécanismes attentionnels

Lorsque la traduction mot « intensive », mécanisme d'attention pour calculer la relation entre le mot cible et chaque mot source, ce qui modélisant directement la relation entre la source et la déclaration de phrase cible. Mais on peut aussi voir que l'attention que le mécanisme de calcul de la relation entre une phrase de mot source et cible, il ne saisit pas toute la relation entre la phrase cible et la phrase source, et ce contact au niveau de la phrase que nous voulons traduire modèle à l'autre, nous pouvons envisager de meilleures relations de la langue source et la déclaration de sous-cible au moment de faire la prochaine décision.

La représentation syndicale

Pour résoudre ce problème est d'utiliser une idée naturelle pour la taille de la représentation plutôt que le (codeur) ou (décodeur) tant, où est la déclaration sous-longueur la source, l'instruction est la sous-longueur cible. Voilà pourquoi nous utilisons la « représentation conjointe » (conjointe représentation).

La figure 3 représente un joint

Une telle déclaration est représentée comme une source et une source d'entrée actuelle cour de sous-phrase destination mots et une cible de toute combinaison de mots sont donnés une seule représentation. En corrélant deux phrases dans les deux mots peuvent exprimer la modélisation conjointe de la relation entre les phrases et les phrases.

Reformer base

Alors, comment construire un modèle de traduction de l'attention commune exprimée sur la base de celui-ci? Il est divisé en trois parties:

1) comment construire une représentation commune sur la base de l'entrée (insert mot)?

2) Comment l'attention de l'opération à une représentation commune?

3) comment prédire l'état cible de la sous-représentation conjointe?

Intégrer le mot

Joint à base de mot construites matrice directement intégré représenté par une matrice de paramètres générés de taille, dans lequel le mot source est la taille de la table, la taille de la table est le mot cible. Une telle matrice qui contient un grand nombre de paramètres. Comme nous le savons, en l'absence de contexte, un mot source est presque indépendante des mots cibles dans un échantillon au hasard sur sémantiquement. Par conséquent, nous utilisons la combinaison de mots représentée comme une combinaison de mots, a déclaré:

De même, en fonction de la position de la représentation de la représentation commune peut être obtenue en calculant la même idée.

La figure 4 représente le joint sur la base de mots-embedded

Lorsqu'elle est exprimée de calcul (I, I) combinaison du mot, nous pouvons mettre le « I » et « I » ces deux mots est obtenue en additionnant la représentation respective.

attention dissociables

Ne se concentrer directement sur la représentation conjointe est beaucoup de temps. Vous pouvez le voir, la complexité des mécanismes standards d'attention à une place de représentation conjointe, même si elle a l'avantage que la couche d'utilisation est uniquement accessible représentation partout.

Figure 5 mécanismes standards d'attention

Par conséquent, nous vous proposons une attention séparable (Séparables Attention). Il se compose de deux parties: l'attention de la cible attention (Attention cible) et la source (Attention Source).

Figure 6 attention amovible (formation)

L'attention de laquelle l'accent cible ne fonctionnent que sur la dimension de la langue cible une représentation commune, alors que l'attention de foyer source ne fonctionnent que dans la langue source de dimension:

Eux. Ainsi, à l'attention de la cible en termes de complexité, et seulement la complexité de la source d'attention. Ainsi, l'attention de toute la complexité séparable, mais il nécessite une opération d'accès de la couche à une position arbitraire de la figure.

Figure 7 attention séparable (décodage)

Décodant le temps, parce que le calcul indiqué au même niveau sont donc indépendants, dans le calcul du calendrier de sortie du moment où l'objectif ne faut concentrer l'attention dernier mot, mais juste besoin d'attirer l'attention de la source du courant d'entrée dans la première fois mots cibles.

réduction de dimensionnalité

Compte tenu d'une représentation conjointe, comment prédire la déclaration cible de l'enfant? Nous savons que la taille de l'articulation est représentée, et le modèle de traduction générale du décodeur représentation de prédiction taille utilisée, chaque élément correspond à chaque mot du promoteur de l'instruction cible prédite.

L'idée est donc opération de réduction de la dimension naturelle en indiquant la taille de l'articulation devient alors la taille de la prévision. dimensions réduction de dimension (réduction) où la langue de la source compressée à être utilisé en combinaison, désigne essentiellement le module structurel est une attention basée sur les caractéristiques, à savoir la taille des particules à un seul élément de l'opération plutôt que d'un seul mot. Il fonctionne de manière similaire à la façon dont une source d'attention, en plus de son droit d'utiliser un réapprentissage comme une requête plutôt que le courant d'entrée généré par:

Ce qui est incorporé dans la taille de texte.

Architecture globale

Avec des mots incorporés, attention séparable et la réduction dimension, sur la base d'un exemple de modèle d'une configuration globale d'attention reformeur-base représentée par la combinaison suivante: d'abord construit représenté conjointement par le mot d'entrée est noyé, puis une couche constituée de mécanismes attentionnels à transformation de nombreuses fois, les dimensions combinées représentent la sortie de la langue source sera compressé à travers dimensionnalité opération de réduction, la dernière instruction cible de prévision des enfants de la représentation syndicale comprimé.

Figure 8 Reformer base

Dans lequel le modèle de couche utilisé est constitué de quatre sous-couches: la cible de l'attention, les réseaux de neurones feedforward, le réseau de neurones à action directe, et l'autre source d'attention. Il convient de noter que l'opération de mise au point a suivi Dropout1d, tandis que le réseau de neurones précompensation suivi Dropout2d.

À l'attention de la cible, il mettra en vedette le Dropout1d (neurones) le long de la source de dimension linguistique masquée, et la source de Dropout1d l'attention des caractéristiques pour couvrir le long de la dimension de la langue cible. Dropout2d réseau de neurones feed-forward mettra également en vedette sur la couverture le long des dimensions des langues source et cible. La raison est que la langue dans laquelle sera répétée la dimension caractéristique de la langue source / cible en présence d'une autre dimension.

Comme on le voit, faisant l'objet d'une attention lorsque la fonction de mot sur la source de 9 répétées le long de la dimension de la langue cible, alors lorsque vous utilisez Dropout cacher les caractéristiques de la source des mots, nous devons couvrir toutes les dimensions possibles le long de la langue cible caractéristiques répétitives ou caractéristiques peuvent être mis au rebut réobtenu, de sorte que les caractéristiques de l'abandon scolaire indépendant encouragent le temps de défaillance cible exprimée dans un autre.

Figure 9, caractérisé en double exemplaire (mise au point cible)

Reformer rapide

Peser l'efficience et l'efficacité

Peut être vu de 1 tableau, par rapport à la norme de l'attention, l'attention a séparable avant de la longueur du chemin (nombre de couches) accès à tout emplacement indiqué avantages, mais attention séparable à la complexité de l'attention que le haut niveau .

Le tableau 1 et les longueurs de trajet de la complexité de l'opération

En observant le Réformateur base, nous pouvons voir qu'il a deux problèmes à l'origine il faut empiler un grand nombre d'attention séparables très complexe pour obtenir d'excellentes performances:

1) double comptage: besoin Réformateur base calculé à partir du mot décodé incorporé dans chaque instant, donc quand un modèle d'information abstraite nécessite, en particulier lorsque les informations de la langue source, il doit être recalculé;

2) distribution calculée: le décodage à chaque instant, le nombre de mots source des mots d'entrée est beaucoup plus que le nombre de l'entrée cible, de sorte que l'opération nécessite un langage plus naturel du côté source.

Prenet

Pour résoudre ce problème, nous avons introduit Prenet ce module sur la base du Réformateur base, nous avons obtenu notre modèle Réformateur rapide. Ce modèle est la première borne de mots de langage des sources d'entrée intégrés à Prenet, la langue de sortie de Prenet mot d'origine en tant que borne de source incorporée à l'intérieur de remplacement à base Reformer pour un traitement ultérieur. Structure Prenet semblable à un codeur standard transformateur.

Figure 10 Réformateur rapide

L'introduction de Prenet a réussi à réduire le nombre d'attention séparables, et la complexité de son très faible, augmentant ainsi l'efficacité globale du modèle. Toutefois, la validité Prenet dommages de la théorie de base Réformateur. Base reformeur par rapport à la longueur du trajet peut accéder à tous les mots source, l'accès à reformeur-rapide à une longueur de trajet seulement au mot source, ce qui est la profondeur de Prenet.

modèle Tuning

En application pratique, nous avons souvent besoin d'utiliser un plus grand modèle sur les grands ensembles de données. Cependant, l'utilisation d'une grande grille de recherche pour trouver un modèle approprié disposé sur de grands ensembles de données est très chronophage, et dans lequel Transformer des techniques conventionnelles telles que l'augmentation de la taille de texte de l'intégration réseau plus large ou anticipatrice Réformateur pas facile à utiliser.

Pour résoudre ce problème, nous avons un processus de réglage des paramètres sur eux considéré comme descente de gradient dans la largeur et la profondeur en fonction de la configuration actuelle du réseau, afin d'obtenir un ensemble optimal de validation de la performance, alors que les paramètres utilisés en une quantité maximale de dispositions:

Dans lequel les paramètres ultra ajuster l'étape (largeur, profondeur) utilisée, la performance est l'ensemble de validation, sont les paramètres du modèle qui sont paramètres réglés manuellement le montant de la limite. Dans cette perspective, l'objectif d'optimisation peut être obtenue peut être considérée pour trouver le meilleur ensemble de configuration du modèle à un montant de vérification des paramètres de performance fixe.

Pour calculer la pente de descente de gradient utilisé, nous avons utilisé pour définir l'estimation de gradient. Dans lequel est calculée comme suit sur un gradient de profondeur:

Dans lequel un nombre décimal est réglée manuellement. Similaire, on peut obtenir de la largeur du dégradé. Tuning l'ensemble du processus est le suivant: Tout d'abord, les gradients estimés, en fonction de la quantité et des paramètres limites fixées manuellement, calculée taille de pas optimal, pour obtenir la configuration du modèle optimal.

expérience

Nous avons vérifié sur IWSLT15 (Vi-En), IWSLT14 (De-En, En-De) et NIST12 (Zh-En) quatre ensembles de données, comme indiqué dans le tableau 2:

Tableau 2 Résultats

Vous pouvez voir, Réformateur-base / rapide sur tous les tests que l'ensemble standard de performance de base Transformer est meilleure, et les performances des deux modèles sont similaires, mais plus vite Réformateur rapide que la base Réformateur. Notez que, Réformateur base sur cette tâche Vi-En pire que la ligne de base, il peut être parce que Réformateur base sur les exigences de conception de la source et l'état des cibles sous-sous-déclarations longueur similaire, mais en général correspond à la peine Vi que ce traduction en beaucoup plus longtemps.

Tableau 3 Ablation

Ablation peut être vu dans le tableau 3, Dropout1 / 2d peut améliorer la capacité de généralisation du modèle, et Prenet peut améliorer l'efficacité du modèle.

Tableau 3 Ablation

De plus, si nous venons d'augmenter deux et 50% du réseau d'alimentation en avant-largeur Réformateur rapide, il peut dépasser transformateur grande, alors que seulement la moitié de la quantité de paramètres.

Figure 11 Statistiques de longueur

Gauche 11 nous dit, le modèle Réformateur est plus enclin à générer à long rapport de démultiplication du transformateur. Figure 11 à droite et nous disent comparer les avantages du modèle Réformateur de base sera plus visible sur la traduction des longues phrases.

Figure 12 précision des statistiques

12 nous dire, que ce soit de la position du mot cible ou un point de vue de la fréquence des mots, la précision modèle Réformateur mieux que la ligne de base de la norme transformateur plus grand nombre.

Figure 13 exemple AttentionScape

Enfin, la Fig. 13 montre un exemple dans le cas du mot d'entrée différents mots source ou cible, la distribution de la mise au point d'entrée de la même séparable généré sont différents. Cela montre la nécessité de la distribution conjointe.

conclusion

Nous vous proposons de mettre en uvre deux modèles basés attention de la distribution conjointe. Les deux modèles ont obtenu des performances supérieures sur l'ensemble des données de base ou une configuration différente. Basé sur le modèle actuel de distribution conjointe est encore très primitif, nous nous attendons à l'avenir d'avoir plus de travail pour les améliorer.

Rapport AAAI 2020:

En vertu de la nouvelle épidémie de coronavirus, AAAI2020 vont également à la réunion?

Vu refuser l'entrée aux États-Unis, les participants du site AAAI2020 échouèrent, le papier comment partager?

AAAI meilleur article publié

AAAI 2020 l'ouverture officielle, 37% des communications acceptées en provenance de Chine, la première place pendant trois années consécutives Takeover

Une vue de texte intégral, la connaissance carte @AAAI 2020

Hinton AAAI2020 texte intégral du discours: Le réseau a finalement fait la capsule droite chose

Actes de AAAI 2020: AAAI 2020 @ papier Wangjing interprétera (PPT télécharger)

Qu'est-ce que la PNL étudie la direction du vent sur le 2020 AAAI là?

six documents Microsoft en vedette AAAI 2020

Jingdong SKK 6 en vedette AAAI 2020 papier

AAAI 2020 série de lecture de papier:

01. construire de meilleurs modèles de reconnaissance et de traduction vocale par le biais de la traduction interactive

02. nouvelles perspectives pour explorer la « détection d'objet » relation mutuellement bénéfique avec la « division d'instance » de

03. Lorsqu'une nouvelle mise en commun bilinéaire en perspective, la redondance, la nature soudaine du problème vient?

04. histoire en utilisant le graphique de la scène pour générer une séquence d'images pour la

05,2100 gloire du champ du roi, 1c1 pourcentage de victoires de 99,8%, Tencent doit réaliser l'interprétation technique de la grippe aviaire

06. apprentissage multi-tâches, comment concevoir un meilleur mécanisme de partage des paramètres?

07. sa langue et d'oublier? Ce modèle peut vous aider | inverse modèle multi-canal dictionnaire

08. DualVD: un dialogue visuel nouveau cadre

09. Avec BABELNET construire une connaissance sémème en plusieurs langues

10. Gully facile à remplir: fin-to-speech traduction, méthode de pré-convergence de la formation et de réglage fin

11. Le temps est peut-être de vous deux? segments de contenu vidéo à partir d'un diagramme de temps de détection en deux dimensions

12. mécanismes de boule de neige pour l'apprentissage et moins de temps relation réseau de neurones

13. En détectant le modèle de caractérisation sémantique et démêler syntaxique des mécanismes cérébraux

14. Le guidage fiducial multimodal formule multimodal abstraction automatique

15. L'utilisation du mécanisme à long d'attention pour générer la traduction de la diversité

16. échantillon zéro apprendre à élargir la carte des connaissances (Vidéo Interprétation)

17. La récupération vidéo basée sur l'image du code de requête est open source!

18. conception de réseau basé sur NAS GCN (lecture vidéo)

19. diagnostic neurocognitive du système éducatif intelligent, l'apprentissage à partir des données d'interfonctionnement fonction

Figure 20. La convolution en plusieurs étapes de l'algorithme d'auto-apprentissage supervisé

21. Le nouveau modèle, générant un dialogue plus fluide, plus personnalisé (interprétation vidéo, PPT ci-joint)

22. La reconnaissance de texte pour le découplage attention du réseau

23. L'étude zéro-échantillon sur la base de caractéristiques visuelles contre la méthode résiduelle

24. Le module d'évaluation est introduit, et la maîtrise de la fidélité de traduction de la machine de levage (déjà ouvert)

25. L'aide d'attitude collaborative multi-caméras à l'initiative pour atteindre la piste cible

26. réexaminer l'évaluation de l'image esthétique et trouver les faits saillants point focal

27. amélioration des objectifs de formation, afin d'améliorer la qualité de la traduction du modèle non-autorégression (déjà ouvert)

28: balises de classification à double vue utilisant une pluralité de faibles améliorer les performances de classification

29. D'après l'apprentissage de renforcement progressif de la politique de l'arbre

30. La représentation commune basée sur la traduction automatique neuronal (interprétation vidéo)

31. Le module d'évaluation est introduit, et la fluidité de la fidélité de la traduction automatique de levage (lecture vidéo)

32. Quelques fois boule de neige mécanisme de réseau neuronal une relation d'apprentissage (interprétation vidéo)

33. Le non-retour auto-traduction de la machine (interprétation vidéo) sur la base des cibles de formation des n-uplets

34. ensemble de données Examen judiciaire (interprétation vidéo, avec lien de téléchargement)

35. supervision faible segmentation sémantique (lecture vidéo)

36. réseaux de neurones binaires rares, ne nécessite aucune compétence, précision faite SOTA (interprétation vidéo)

Texte de la limite à 37. - Procédé de détection d'un texte de forme arbitraire

38. modèle DCMN +: fissure « compréhension à la lecture » des problèmes, a remporté d'obtenir les performances du monde

39. Le double canal modèle de raisonnement en plusieurs étapes, un meilleur dialogue visuel pour résoudre les problèmes générés

40. Inverser R? Affaiblir les caractéristiques de saillants de la mise à niveau est d'apporter classification grains fins

41. RiskOracle: une méthode de prédiction accident de la circulation à grain fin espace-temps

45. La nouvelle détection cible du faible cadre de supervision

46. algorithme d'optimisation NAS, 10 fois plus rapide!

47. L'utilisation du mécanisme d'attention pour obtenir un positionnement optimal de la caméra (interprétation vidéo)

48. Diou et Ciou: IoU corriger dans la détection cible ouverte

49. Pour la méthode d'alignement de la face vidéo de masse

50. KPNet, la poursuite du détecteur de visage léger (vidéo interprétation)

Recrutement Ordre: affaires ici, « truc du printemps » ne pas paniquer
Précédent
Juste et exacte est tout aussi important! CMU a proposé l'apprentissage des méthodes de caractérisation juste pour obtenir algorithme d'équité
Prochain
Les données ne peuvent être utilisées sans discernement, la nouvelle décennie, pourquoi les entreprises devraient utiliser le partage de données nouveau paradigme?
Tencent AI Lab fait « forêt entièrement dépendante » atténuer de manière significative l'erreur est passé extraction de relations
Hinton AAAI2020 Discours: Le réseau a finalement fait la capsule droite chose
Aujourd'hui papier | gradient de cisaillement, NER, traitement du langage naturel, la fonction de l'intensité de l'apprentissage libre
Sloan Research Award 2020 a annoncé que 16 scientifiques chinois ont été sélectionnés, quatre du numéro de l'hôpital l'Université de Pékin
Une vue de texte intégral, les connaissances AAAI sur la carte 2020
Livre d'aujourd'hui | apprentissage petit échantillon, l'apprentissage machine, une seule image désembuage, détection de cible zéro échantillon
8% du fragment d'ADN humain du virus, pour la lecture culturelle et historique du livre Fête du Printemps
Comment la stigmatisation sociale puissante poussé au fond? livres financiers Lire pour le Nouvel An chinois
Comment gérer ses émotions, exercer le cerveau? Lire les livres de sciences sociales pour le Nouvel An chinois
Yiwu livraison a chuté de 8 pour cheveux simple: ouvrir la porte pour faire des affaires ne font pas d'argent, dessin quoi?
Nokia a tenu une première conférence de l'An, le nouveau navire amiral de cent dollars la machine laissés Shu titane Nouvelles