ICML 2019 | s�quence � la s�quence des t�ches de g�n�ration de langage naturel au-del� BERT, TPG! Microsoft a propos� le mod�le pr�-formation universelle MASS

Note de l'�diteur: Depuis le d�but de 2018, pr�-formation (pr�-train), il est sans doute le domaine de la recherche la plus chaude de la PNL. Au moyen du BERT et TPG tels que le mod�le pr�-formation, l'humanit� a fait une perc�e majeure dans la compr�hension des t�ches plus en langage naturel. Cependant, dans l'ordre de la s�quence de t�ches de g�n�ration de langage naturel, traditionnel mod�le de pr�-formation n'a pas obtenu des r�sultats significatifs. � cette fin, les chercheurs de Microsoft Research Asia ICML 2019 a propos� une nouvelle m�thodes pr�-formation universelles de masse, BERT et TPG complet que dans l'ordre de la s�quence de t�ches de g�n�ration de langage naturel. Participez au jeu WMT19 de traduction automatique de Microsoft, MASS Aide - anglais, anglais - lituanien a fait les deux premiers r�sultats.

BERT dans la compr�hension du langage naturel (telles que la classification de sentiment, le raisonnement du langage naturel, la reconnaissance de l'entit� nomm�e, SQUAD compr�hension � la lecture, etc.) mission a obtenu de bons r�sultats, a re�u de plus en plus d'attention. Cependant, dans le domaine du traitement du langage naturel, en plus des t�ches de compr�hension du langage naturel, il y a beaucoup de s�quence de g�n�ration de langage naturel � la s�quence de t�ches, telles que la traduction automatique, texte g�n�ration de r�sum�, susciteront le dialogue, les questions et les r�ponses, la conversion de style de texte. Dans une telle t�che, la m�thode dominante actuelle est un codeur - Attention - cadre de d�codeur, comme indiqu� ci-dessous.

Encoder - Attention - d�codeur cadre

Codeur (encodeur) codant pour la s�quence source en une s�quence de vecteurs texte cach� X, et le d�codeur (DECODER) extraction de l'information cach�e cod�e par la s�quence de vecteurs m�canismes attentionnels (l'attention), le texte g�n�r� autor�gressif s�quence cible Y.

la formation BERT est g�n�ralement un seul codeur pour la compr�hension du langage naturel, et le mod�le de formation linguistique TPG est g�n�ralement un d�codeur. Si vous voulez BERT ou GPT pour la s�quence de t�ches de g�n�ration de langage naturel � la s�quence, les codeurs de pr�-formation g�n�ralement s�par�s et d�codeurs, encodeurs donc - attention - structure de d�codeur n'a pas �t� une formation commune, ne sera pas m�canisme pr�-m�moire la formation et le m�canisme du codeur d'attention du d�codeur est tr�s important dans ce type de t�che, donc BERT et TPG dans une telle t�che ne peut obtenir des r�sultats optimaux.

La nouvelle m�thode de pr�-formation --mass

Plus pr�cis�ment pour la s�quence de t�ches � la s�quence de g�n�ration de langage naturel, Microsoft Research Asia a pr�sent� de nouvelles m�thodes pr�-formation: s�quence de masquage � la s�quence pr�-formation (MASS: Masked S�quence de s�quence pr�-formation). MASS longueur de phrase d'un masque al�atoire des segments cons�cutifs k et ensuite par le codeur - les segments du mod�le qui g�n�re le d�codeur pr�dictif - attention.

s�quence Masquage � la s�quence d'un cadre de mod�le de pr�-formation MASSE

Comme on le voit ci-dessus, du c�t� du codeur de 3-6 mots pour �tre bloqu�, puis la pr�diction de d�codeur seulement plusieurs mots cons�cutifs, l'masqu�e d'autres termes, sur la figure. � _ � Repr�sente le mot masqu�.

MASS pr�-formation pr�sente plusieurs avantages:

(1) l'autre extr�mit� du d�codeur de mot (c�t� codeur est bloqu� et ne peut pas en mots) sont masqu�es, afin d'encourager l'information d'extrait de c�t� du d�codeur du codeur pour aider � pr�voir des segments cons�cutifs, cela Promouvoir l'encodeur - attention - d�codeur structure de formation commune;

(2) Afin de fournir des informations plus utiles au d�codeur, le codeur est contraint de ne pas prot�ger le mot s�mantique extrait pour Levage codeur capacit� s�quence de texte source appr�ci�e;

(3) permettent aux segments de s�quence contigus de pr�diction de d�codeur, � les capacit�s de mod�lisation pour am�liorer le d�codeur de langue.

cadre unifi� pour la pr�-formation

MASS a un param�tre super important k (longueur continue de segment de bouclier), en ajustant la taille k, masse comprend proc�d� de formation de mod�le de langage peut prot�ger BERT et GPT dans la m�thode standard de mod�le de langue pr�-form�, MASS devenir un cadre pr�-formation universelle.

Lorsque k = 1, en fonction de l'�cran de r�glage, un mot de c�t� du codeur de MASS, un c�t� du d�codeur de pr�diction de mot, comme repr�sent� sur la Fig. Le d�codeur il n'y a pas d'informations d'entr�e, la m�thode de temps �quivalent du mod�le de langage pr�-form� bouclier de masse et le BERT.

Tandis que, lorsque k = m (m est la longueur de la s�quence), l'�cran selon MASS r�glage de tous les codeurs de parole, pr�diction de d�codeur de tous les mots, comme illustr� ci-dessous, depuis le c�t� du codeur sont masqu�s tous les mots, le d�codeur m�canismes attentionnels �quivalents de ne pas obtenir l'information, dans ce cas, masse �quivalente au mod�le de langage standard TPG.

MASS forme indiqu�e dans le tableau ci-dessous sous diff�rentes probabilit�s K, o� m est la longueur de la s�quence, u et blindage v positions de d�but et de fin de la s�quence, x ^ u: v u repr�sente les fragments de s�quences d'une position de v, x ^ \ u: v repr�sente la position de s�quence de u � v sont masqu�es. Il peut �tre consid�r� comme Lorsque K = 1 ou m, respectivement, et la probabilit� de la forme du bouclier mod�le langage MASS BERT et GPT dans le mod�le de langage standard coh�rent.

Par exp�rience, nous avons analys� l'effet de diff�rentes longueurs de fragment mod�le de blindage de masse (k) de pr�-entra�nement, comme repr�sent� sur la Fig.

Lorsque k prend approximativement la moiti� de la longueur de la phrase (50% m), la t�che en aval pour obtenir des performances optimales. Bouclier demi-mot phrase bon �quilibre pr�-entra�n� codeur et le d�codeur, le codeur fl�chissement excessif (k = 1, � savoir BERT) ou d'un d�codeur de d�viation excessive (k = m, � savoir, LM / GPT) ne sont pas en obtenir une efficacit� optimale de la t�che, qui peut �tre vu dans l'ordre avantage MASS des t�ches de g�n�ration de langage naturel � la s�quence.

S�quence � la s�quence des t�ches de g�n�ration en langage naturel exp�rience

processus de pr�-formation

MASS seules les donn�es non supervis�es monolingues (telles que WMT Nouvelles Crawl donn�es, Wikipedia donn�es, etc.) pr�-formation. support de masse s�quence interlangage de g�n�ration de s�quence (comme la traduction de la machine), et prend �galement en charge seule s�quence � la langue de g�n�ration de s�quence (texte g�n�ration de r�sum�, la g�n�ration de dialogue). Lorsque la masse pr�-formation des tcches de langue (cross telles que l'anglais - traduction automatique en fran�ais), nous avons r�alis� dans un mod�le � la fois en anglais et en fran�ais � l'anglais une pr�-formation en fran�ais. Par ailleurs, pour chaque besoin linguistique d'ajouter vecteur int�gr� un langage appropri�, utilis� pour distinguer entre les diff�rentes langues. Nous avons choisi la traduction automatique non supervis�, faible traduction automatique des ressources, le texte de g�n�ration et le r�sultat de summarization dialogue en quatre t�ches, MASS affinera le mod�le pr�-form�s pour chaque t�che de v�rifier l'effet de masse.

Traduction automatique Unsupervised

La t�che de traduction sans supervision, nous avons le plus courant et Facebook XLM par rapport (pr�-formation de mod�le de bouclier XLM BERT, ainsi que la norme ont �t� codeur mod�le de langage pr�-formation et d�codeur), en comparant les r�sultats pr�sent�s dans le tableau suivant.

Vous pouvez voir, MASS m�thodes WMT14 Anglais pr�-formation - Fran�ais, Anglais WMT16 - Total allemand de quatre performances sur la direction de traduction sont mieux que XLM. MASS en anglais - effet de la traduction fran�aise sur sans supervision d�j� largement d�pass� codeur pr�c�demment supervis� - attention - mod�le de d�codeur, tout en r�duisant consid�rablement l'�cart actuel entre le meilleur mod�le de supervision.

Traduction automatique faible ressource

Faible traduction automatique des ressources fait r�f�rence � la machine de traduction sous la supervision des circonstances limit�es de donn�es. Nous WMT14 Anglais - Fran�ais, Anglais WMT16 - sur diff�rentes ressources bas sur la sc�ne allemande (�taient seulement 10K, 100K, les donn�es de surveillance 1M) pour v�rifier la validit� de notre approche, et les r�sultats sont pr�sent�s ci-dessous.

Sous diff�rentes �chelles de donn�es, notre m�thode de pr�-formation des performances de la formation que ceux sans mod�les de pr�-base ont des degr�s d'am�lioration, le contr�le moins des donn�es pour renforcer l'effet est plus important.

R�sum� g�n�r� texte

R�sum� g�n�r� (Gigaword Corpus) dans le texte de la t�che, nous MASS par rapport � BERT + LM (codeur BERT pr�-formation, d�codage utilis� mod�le de langage standard LM pr�-formation) et DAE (d�bruitage du codeur). Peut �tre vu � partir du tableau ci-dessous, l'effet �tait sup�rieur MASSE BERT + LM et DAE.

g�n�rer le dialogue

Sur la mission g�n�ration de dialogue (Cornell Film dialogue Corpus), nous MASS par rapport � BERT + LM, les r�sultats pr�sent�s dans le tableau suivant. La PPL MASSE ci-dessous BERT + LM.

Dans une autre s�quence de t�ches de s�quence dans la g�n�ration de langage naturel, MASS ont obtenu de tr�s bons r�sultats. Ensuite, nous allons tester les performances de masse sur la compr�hension des t�ches en langage naturel, et ajoute le support pour la surveillance des donn�es des fonctions pr�-formation pour le mod�le pour obtenir la mise � niveau souhait� dans les t�ches linguistiques plus naturelles. L'avenir, nous voulons aussi �tendre les applications de masse pour inclure d'autres s�quences de la voix, la vid�o, etc. pour g�n�rer une s�quence de t�ches.

adresse papiers

Pour plus de d�tails, voir les documents, documents portent sur: https: //arxiv.org/pdf/1905.02450.pdf

Code de la presse pour voir les documents

Nous allons �galement ouvrir la source de papier dans un avenir proche, restez � l'�coute!

A propos de l'auteur

Xu Tan, groupe d'apprentissage automatique au chercheur Microsoft Research Asia, les int�r�ts de recherche comprennent des algorithmes d'apprentissage machine et le langage naturel, les applications vocales dans le domaine, la recherche est publi�e dans ICML, NIPS, IPSC, AAAI, EMNLP, NAACL et d'autres r�unions.

Cliquez pour lire le texte original, en ajoutant des �quipes top CVPR �changeront un �change de vues et d'apprendre avec leurs pairs

Route de la soie

Apprenez � conna�tre la Chine

ICML 2019 | s�quence � la s�quence des t�ches de g�n�ration de langage naturel au-del� BERT, TPG! Microsoft a propos� le mod�le pr�-formation universelle MASS