ICML 2019 | séquence à la séquence des tâches de génération de langage naturel au-delà BERT, TPG! Microsoft a proposé le modèle pré-formation universelle MASS

Note de l'éditeur: Depuis le début de 2018, pré-formation (pré-train), il est sans doute le domaine de la recherche la plus chaude de la PNL. Au moyen du BERT et TPG tels que le modèle pré-formation, l'humanité a fait une percée majeure dans la compréhension des tâches plus en langage naturel. Cependant, dans l'ordre de la séquence de tâches de génération de langage naturel, traditionnel modèle de pré-formation n'a pas obtenu des résultats significatifs. À cette fin, les chercheurs de Microsoft Research Asia ICML 2019 a proposé une nouvelle méthodes pré-formation universelles de masse, BERT et TPG complet que dans l'ordre de la séquence de tâches de génération de langage naturel. Participez au jeu WMT19 de traduction automatique de Microsoft, MASS Aide - anglais, anglais - lituanien a fait les deux premiers résultats.

BERT dans la compréhension du langage naturel (telles que la classification de sentiment, le raisonnement du langage naturel, la reconnaissance de l'entité nommée, SQUAD compréhension à la lecture, etc.) mission a obtenu de bons résultats, a reçu de plus en plus d'attention. Cependant, dans le domaine du traitement du langage naturel, en plus des tâches de compréhension du langage naturel, il y a beaucoup de séquence de génération de langage naturel à la séquence de tâches, telles que la traduction automatique, texte génération de résumé, susciteront le dialogue, les questions et les réponses, la conversion de style de texte. Dans une telle tâche, la méthode dominante actuelle est un codeur - Attention - cadre de décodeur, comme indiqué ci-dessous.

Encoder - Attention - décodeur cadre

Codeur (encodeur) codant pour la séquence source en une séquence de vecteurs texte caché X, et le décodeur (DECODER) extraction de l'information cachée codée par la séquence de vecteurs mécanismes attentionnels (l'attention), le texte généré autorégressif séquence cible Y.

la formation BERT est généralement un seul codeur pour la compréhension du langage naturel, et le modèle de formation linguistique TPG est généralement un décodeur. Si vous voulez BERT ou GPT pour la séquence de tâches de génération de langage naturel à la séquence, les codeurs de pré-formation généralement séparés et décodeurs, encodeurs donc - attention - structure de décodeur n'a pas été une formation commune, ne sera pas mécanisme pré-mémoire la formation et le mécanisme du codeur d'attention du décodeur est très important dans ce type de tâche, donc BERT et TPG dans une telle tâche ne peut obtenir des résultats optimaux.

La nouvelle méthode de pré-formation --mass

Plus précisément pour la séquence de tâches à la séquence de génération de langage naturel, Microsoft Research Asia a présenté de nouvelles méthodes pré-formation: séquence de masquage à la séquence pré-formation (MASS: Masked Séquence de séquence pré-formation). MASS longueur de phrase d'un masque aléatoire des segments consécutifs k et ensuite par le codeur - les segments du modèle qui génère le décodeur prédictif - attention.

séquence Masquage à la séquence d'un cadre de modèle de pré-formation MASSE

Comme on le voit ci-dessus, du côté du codeur de 3-6 mots pour être bloqué, puis la prédiction de décodeur seulement plusieurs mots consécutifs, l'masquée d'autres termes, sur la figure. « _ » Représente le mot masqué.

MASS pré-formation présente plusieurs avantages:

(1) l'autre extrémité du décodeur de mot (côté codeur est bloqué et ne peut pas en mots) sont masquées, afin d'encourager l'information d'extrait de côté du décodeur du codeur pour aider à prévoir des segments consécutifs, cela Promouvoir l'encodeur - attention - décodeur structure de formation commune;

(2) Afin de fournir des informations plus utiles au décodeur, le codeur est contraint de ne pas protéger le mot sémantique extrait pour Levage codeur capacité séquence de texte source appréciée;

(3) permettent aux segments de séquence contigus de prédiction de décodeur, à les capacités de modélisation pour améliorer le décodeur de langue.

cadre unifié pour la pré-formation

MASS a un paramètre super important k (longueur continue de segment de bouclier), en ajustant la taille k, masse comprend procédé de formation de modèle de langage peut protéger BERT et GPT dans la méthode standard de modèle de langue pré-formé, MASS devenir un cadre pré-formation universelle.

Lorsque k = 1, en fonction de l'écran de réglage, un mot de côté du codeur de MASS, un côté du décodeur de prédiction de mot, comme représenté sur la Fig. Le décodeur il n'y a pas d'informations d'entrée, la méthode de temps équivalent du modèle de langage pré-formé bouclier de masse et le BERT.

Tandis que, lorsque k = m (m est la longueur de la séquence), l'écran selon MASS réglage de tous les codeurs de parole, prédiction de décodeur de tous les mots, comme illustré ci-dessous, depuis le côté du codeur sont masqués tous les mots, le décodeur mécanismes attentionnels équivalents de ne pas obtenir l'information, dans ce cas, masse équivalente au modèle de langage standard TPG.

MASS forme indiquée dans le tableau ci-dessous sous différentes probabilités K, où m est la longueur de la séquence, u et blindage v positions de début et de fin de la séquence, x ^ u: v u représente les fragments de séquences d'une position de v, x ^ \ u: v représente la position de séquence de u à v sont masquées. Il peut être considéré comme Lorsque K = 1 ou m, respectivement, et la probabilité de la forme du bouclier modèle langage MASS BERT et GPT dans le modèle de langage standard cohérent.

Par expérience, nous avons analysé l'effet de différentes longueurs de fragment modèle de blindage de masse (k) de pré-entraînement, comme représenté sur la Fig.

Lorsque k prend approximativement la moitié de la longueur de la phrase (50% m), la tâche en aval pour obtenir des performances optimales. Bouclier demi-mot phrase bon équilibre pré-entraîné codeur et le décodeur, le codeur fléchissement excessif (k = 1, à savoir BERT) ou d'un décodeur de déviation excessive (k = m, à savoir, LM / GPT) ne sont pas en obtenir une efficacité optimale de la tâche, qui peut être vu dans l'ordre avantage MASS des tâches de génération de langage naturel à la séquence.

Séquence à la séquence des tâches de génération en langage naturel expérience

processus de pré-formation

MASS seules les données non supervisées monolingues (telles que WMT Nouvelles Crawl données, Wikipedia données, etc.) pré-formation. support de masse séquence interlangage de génération de séquence (comme la traduction de la machine), et prend également en charge seule séquence à la langue de génération de séquence (texte génération de résumé, la génération de dialogue). Lorsque la masse pré-formation des tcches de langue (cross telles que l'anglais - traduction automatique en français), nous avons réalisé dans un modèle à la fois en anglais et en français à l'anglais une pré-formation en français. Par ailleurs, pour chaque besoin linguistique d'ajouter vecteur intégré un langage approprié, utilisé pour distinguer entre les différentes langues. Nous avons choisi la traduction automatique non supervisé, faible traduction automatique des ressources, le texte de génération et le résultat de summarization dialogue en quatre tâches, MASS affinera le modèle pré-formés pour chaque tâche de vérifier l'effet de masse.

Traduction automatique Unsupervised

La tâche de traduction sans supervision, nous avons le plus courant et Facebook XLM par rapport (pré-formation de modèle de bouclier XLM BERT, ainsi que la norme ont été codeur modèle de langage pré-formation et décodeur), en comparant les résultats présentés dans le tableau suivant.

Vous pouvez voir, MASS méthodes WMT14 Anglais pré-formation - Français, Anglais WMT16 - Total allemand de quatre performances sur la direction de traduction sont mieux que XLM. MASS en anglais - effet de la traduction française sur sans supervision déjà largement dépassé codeur précédemment supervisé - attention - modèle de décodeur, tout en réduisant considérablement l'écart actuel entre le meilleur modèle de supervision.

Traduction automatique faible ressource

Faible traduction automatique des ressources fait référence à la machine de traduction sous la supervision des circonstances limitées de données. Nous WMT14 Anglais - Français, Anglais WMT16 - sur différentes ressources bas sur la scène allemande (étaient seulement 10K, 100K, les données de surveillance 1M) pour vérifier la validité de notre approche, et les résultats sont présentés ci-dessous.

Sous différentes échelles de données, notre méthode de pré-formation des performances de la formation que ceux sans modèles de pré-base ont des degrés d'amélioration, le contrôle moins des données pour renforcer l'effet est plus important.

Résumé généré texte

Résumé généré (Gigaword Corpus) dans le texte de la tâche, nous MASS par rapport à BERT + LM (codeur BERT pré-formation, décodage utilisé modèle de langage standard LM pré-formation) et DAE (débruitage du codeur). Peut être vu à partir du tableau ci-dessous, l'effet était supérieur MASSE BERT + LM et DAE.

générer le dialogue

Sur la mission génération de dialogue (Cornell Film dialogue Corpus), nous MASS par rapport à BERT + LM, les résultats présentés dans le tableau suivant. La PPL MASSE ci-dessous BERT + LM.

Dans une autre séquence de tâches de séquence dans la génération de langage naturel, MASS ont obtenu de très bons résultats. Ensuite, nous allons tester les performances de masse sur la compréhension des tâches en langage naturel, et ajoute le support pour la surveillance des données des fonctions pré-formation pour le modèle pour obtenir la mise à niveau souhaité dans les tâches linguistiques plus naturelles. L'avenir, nous voulons aussi étendre les applications de masse pour inclure d'autres séquences de la voix, la vidéo, etc. pour générer une séquence de tâches.

adresse papiers

Pour plus de détails, voir les documents, documents portent sur: https: //arxiv.org/pdf/1905.02450.pdf

Code de la presse pour voir les documents

Nous allons également ouvrir la source de papier dans un avenir proche, restez à l'écoute!

A propos de l'auteur

Xu Tan, groupe d'apprentissage automatique au chercheur Microsoft Research Asia, les intérêts de recherche comprennent des algorithmes d'apprentissage machine et le langage naturel, les applications vocales dans le domaine, la recherche est publiée dans ICML, NIPS, IPSC, AAAI, EMNLP, NAACL et d'autres réunions.

Cliquez pour lire le texte original, en ajoutant des équipes top CVPR échangeront un échange de vues et d'apprendre avec leurs pairs

Discutez en face à face avec Geoffery Hinton
Précédent
Le Magicien d'Oz [03] Fengling bois chaque femme - Heilongjiang Beaux-Arts Publishing House 2011 Zhao Ji Zhao sont peints [suivante]
Prochain
Industrie | Shang Dynasty rafales de 11 modèles de nouveaux produits, à la force de leur propre limite « AI d'atterrissage »
Lee Shau Kee de la mort, Hong Kong « quatre mal » chose du passé
Le riz rouge K20 ennemi juré! Glory 20 Pro premier à démarrer: Ce regard de votre jeu un peu?
Le Magicien d'Oz [03] Fengling bois chaque femme - Heilongjiang Beaux-Arts Publishing House 2011 Zhao Ji Zhao sont peints [sur]
Le dernier champ de vision et langue Recherche et développement Article aperçu
Zhang Ying Ying montre le premier jour du procès, les accusés encourent la peine de mort accusé, le jury est une grande incertitude
« Juin » Bien avant la tournée de vacances Harbin compagnie pour montrer l'amour aux enfants ayant des besoins spéciaux
lutte pour le pouvoir Huang Wei - Nouveau 1955 Chen Lvping peint Publishing Beaux-Arts Maison
cents abricots seront - Culture chinoise Maison d'édition 2009 peinture Wang Xuecheng
L'histoire comparative jugée pour voir le fonds d'obligations convertibles en cours peut acheter?
Qian Wang Chao a tiré - Zhejiang People édition des beaux-arts Maison 1980 DAI REN peint
Liuzuo Hu n'a pas menti! Un plus 7 débuts Pro: premier roi national bien mérité!