chien de chiot est un chien! DeepMind grand mouvement au visuel pour les m�dias, faire la traduction automatique non supervis�e est tr�s efficace

Auteur | Jiang Shang Bao

Lorsque la barri�re de la langue lorsque deux personnes de communiquer, les gestes et les yeux sont devenus naturellement un artefact de communication. Parfois, les gestes et le contact visuel lorsque le sens de l'expression peut �tre vaut mille mots.

Cela ne peut pas �tre des avantages similaires avec la traduction automatique?

R�cemment, de DeepMind, Universit� d'Oxford et les chercheurs de Carnegie Mellon a publi� un document ensemble � de terre visuel dans la vid�o pour la traduction Unsupervised mot �, propos� la cartographie des mots sans supervision pour am�liorer la base visuelle.

(Lei Feng r�seau) papiers Cipian ont �t� accept�s pour la CVPR 2020. Les articles portent sur: https: //arxiv.org/pdf/2003.05078.pdf

L'id�e de base de cet article est: l'humanit� sur terre pourrait dire des milliers de langues diff�rentes, mais avec � l'il � pour voir le monde est en effet une seule, avec cette base visuelle, nous pouvons combler le foss� entre les langues.

L'id�e g�n�rale: en utilisant les vid�os p�dagogiques se partagent la vision

Sur le papier la m�thode est tr�s simple d'utilisation, le mod�le par � regarder � la vid�o, d'�tablir une repr�sentation visuelle commune entre les deux langues, � savoir dans un b�timent donn� une vision commune int�gr�e dans le cas - algorithme de mise en correspondance de texte mixte.

(Lei Feng r�seau), bien que dans plusieurs langues, d�crit la m�me chose

Voici un exemple simple, lorsque les enfants apprennent la langue, plus est d'observer l'environnement et d'interagir avec les gens autour, dans le processus, ne n�cessite pas de directives claires et de supervision. Quand ils apprennent plusieurs langues, vous pouvez profiter de situations similaires dans des circonstances diff�rentes: il a entendu un � chien manger � en voyant de vue, l'ou�e et de la vue vendredi quand phrase � le chien mange � pour voir le lundi il est similaire.

Les auteurs lors de la construction du syst�me de traduction sans supervision, tire sur les id�es ci-dessus: les gens font des choses dans diff�rents pays pour fournir une vid�o au syst�me, tout en utilisant leur langue maternelle pour expliquer ce qu'ils font. La s�lection de contenu est � peu pr�s similaire � des vid�os p�dagogiques, par exemple, bien que dans des langues diff�rentes, mais enseigner aux gens comment Coinc�e cours vid�o d'enseignement de jus d'orange.

Il y a beaucoup de vid�os p�dagogiques sur YouTube, et la similitude du contenu est tr�s �lev�, de sorte que les auteurs ont utilis� comme donn�es d'enseignement vid�o de formation. Bien que l'utilisation de la technologie de reconnaissance automatique de la parole peut �tre beaucoup de vid�o et correspondant l�gende, mais les donn�es recueillies a de nombreux d�fauts: Tout d'abord, le contenu du regroupement vid�o d'enseignement n'est pas facile, parfois suivie d'une vid�o d'instruction dans le � professeur �, a d�clar� hors-sujet merde.

Bien qu'il existe des d�fis, mais cette vision commune pour promouvoir l'exactitude de la traduction. Comme le montre, la traduction des documents pr�sent�s � la fran�aise et britannique comme indiqu� ci-dessus. On dit qu'en regardant la vid�o, dans la traduction des mots couramment utilis�s et les mots visuels peuvent atteindre le taux correct de 28,0% et 45,3%, par rapport � la m�thode de traduction bas�e sur la pr�cision de r�cup�ration de 12,5% et 18,6% de plus que beaucoup.

Mod�le d'architecture: apprentissage non supervis� en plusieurs langues

(R�seau Lei Feng)

Comme indiqu� plus haut, l'ensemble du mod�le comprend trois codeurs, un pour la langue X et un Y et Z, un pour la vid�o. Ce mod�le est compos� de trois codeurs, apr�s la formation, l'objectif est d'�tre en mesure d'�tablir la langue vid�o Z X Y et la mise en correspondance des langues.

Langue codeurs X se compose de trois parties: un mot de couche enterr�e; 2, la couche (une couche de feed-forward position sage reli�e int�gralement) r�seau d'alimentation avant que la simple position totalement connect�e, 3, une couche lin�aire. Dans lequel l'effet de la parole couche enterr�e est de convertir la s�quence de vecteur de dimension, la couche r�seau feedforward avant pleine action de couplage est maintenant la plus grande piscine du mot, et g�n�re ensuite un vecteur de dimension de s�quence; effet lin�aire couche est de cr�er un espace d'insertion commune et la repr�sentation interm�diaire (Interm�diaire repr�sentation) cartographie.

Y codeur pour la langue, l'utilisation de mod�les translinguistique partage des poids, la couche de � savoir les droits de partage et derni�re couche un poids lin�aire entre la langue X et la langue de Y. Pour diff�rentes entr�es de la langue de la couche partag�e du mot dans le langage Y est une couche lin�aire appel�e AdaptLayer ajout�e apr�s couche d'enrobage.

effet AdaptLayer est de changer l'espace d'insertion de mot de la langue Y la langue de mot Y int�gr� dans l'int�gration de mot de langage similaire X est possible.

� propos des encodeurs vid�o, l'utilisation du mod�le standard I3D, plus un lin�aire mis en correspondance avec la couche de sortie int�gr�e dans l'espace commun. Note de l'�diteur: Le mod�le I3D peut �tre comprise comme � partir d'une version am�lior�e du r�seau de convolution 2D, signifie deux flux Gonfl� 3D ConvNet, son journal a �t� inclus en 2017 CVPR.

f, g, h langue correspondant X, Y, et la fonction vid�o enrobage de Z, L est d�fini comme �tant la fonction de perte.

Comme le montre, selon les auteurs introduisent, en d�finissant la formule ci-dessus, peut �tre �tendu cible d'optimisation de la strat�gie de formation du mod�le entier comme une formule � la situation multilingue.

La formule ci-dessus L (f, h) est d�finie comme suit:

NCE est d�fini comme suit:

En r�duisant au minimum la fonction de perte ci-dessus mod�le de formation commune peut �tablir la cartographie des deux langues, qui est, pour une donn�e xX, se trouve yY.

Exp�rience: � I � mod�le plus robuste

Dans la partie exp�rimentale, le courant peut atteindre la comparaison mod�le de traduction bas� sur le texte SOTA, les auteurs ont constat� que leur mod�le est plus remarquable dans la traduction.

Au cours de l'exp�rience, l'auteur de la transcription de la vid�o ont �t� jeton, 65.536 pour chaque langue la plus couramment utilis�e mot Converge � un vocabulaire. Apr�s pr�traitement, les auteurs ont utilis� mot word2vec de monolingues de formation int�gr� et (algorithme propos� par les auteurs) � MUVE, MUSE et VecMap int�gr�s dans ces mod�les utilisent des pr�-form�s.

Dans la formation, un clip vid�o d'extraits concentr�s ses overs correspondants � partir des donn�es. Chaque lot comprend la formation d'un fragment de langue � partir de toutes les langues, et la perte dans le NCE chaque �l�ment est un �l�ment n�gatif provenant d'un autre lot de la m�me langue.

En outre, pour l'encodeur vid�o, I3D Mod�le de Kinetics-400 sur le plateau de donn�es pr�-form� est finement ajust�e pour un mod�le de langue pr�-formation des mots sur des couches int�gr�es respectives HowToW-Text ensemble de donn�es.

Les auteurs ont utilis� optimiseur Adam, le taux d'apprentissage initial est fix� � 10 (-3), la capacit� de traitement par lots de 128, et les deux mod�les de formation nuage TPU 200K it�rations.

En termes de recherche peut am�liorer la qualit� de la traduction de texte, l'auteur sera propri�taire de l'autre base de deux mod�les de comparaison. La premi�re ligne de base (Random Chance) est utilis� sans l'utilisation de la traduction extraite vid�o, le deuxi�me groupe utilise la r�cup�ration vid�o (r�cup�ration vid�o), cr�er un corpus parall�le en utilisant la vid�o entre deux langues.

Comme indiqu� ci-dessus en anglais � la traduction fran�aise, l'auteur de la performance du mod�le sur les deux points de r�f�rence nettement mieux que la ligne de base. En outre, MUVE (ligne 4) que soit le mod�le de base (ligne 3) avait une am�lioration significative (avec + 19,8% + 30,3% et une am�lioration absolue dans le dictionnaire de mot et la simple r�f�rence, respectivement)

Ainsi, le mod�le peut am�liorer le mot bas� sur le texte m�thode de traduction dans quelle mesure? Trois de la m�thode exp�rimentale et une m�thode supervis�e non surveill�e, toutes les m�thodes utilis�es dans le mot int�gr� HowToW-texte sur les m�thodes de formation.

Comme ci-dessus, les auteurs comparent les r�sultats de la traduction entre l'anglais et le fran�ais, le cor�en et le japonais apr�s MUVE de optimale, la traduction de l'auteur entre l'anglais et la Cor�e anglais-japonais a une am�lioration tr�s importante sur la m�thode � base de texte.

Mais il montre aussi une approche simple � base de texte est plus appropri� pour � look � un langage similaire, comme l'anglais et le fran�ais.

Comment la traduction mot sans supervision solide? Comme indiqu� plus haut, les auteurs d�montrent la performance MUVE, MUSE, VecMap concentr� Recall @ EF dans le dictionnaire de donn�es 10, et la distance par JS (JENSEN-shannon, repr�sent� par la table ~) mesurer le degr� de similitudes et les diff�rences.

Les r�sultats ont montr� que, lorsque Dangdang Corpus similaires (par exemple Wiki-En-et Wiki FR), toutes les m�thodes fonctionnent bien. Lorsque dissemblables Corpus, MUVE est sup�rieure � d'autres m�thodes, mais aussi plus robuste.

Lorsque diff�rentes quantit� de donn�es de formation, le mod�le de la fa�on dont la performance? La figure montre 100% du montant initial des donn�es collectives, 10%, 1% des r�sultats des donn�es de formation, mesur�e par Recall @ 10, est clairement la m�thode de l'auteur dans les cas de faibles ressources (manque de corpus de formation) de meilleurs r�sultats.

En outre, lorsque la quantit� de changement de vocabulaire, comme indiqu� ci-dessus, non seulement diminuer la performance de la m�thode de MUSE. D'autres m�thodes bas�es sur des textes d�pendent de la taille du vocabulaire.

Route de la soie

Apprenez � conna�tre la Chine

chien de chiot est un chien! DeepMind grand mouvement au visuel pour les m�dias, faire la traduction automatique non supervis�e est tr�s efficace

L'id�e g�n�rale: en utilisant les vid�os p�dagogiques se partagent la vision

Mod�le d'architecture: apprentissage non supervis� en plusieurs langues

Exp�rience: � I � mod�le plus robuste