chien de chiot est un chien! DeepMind grand mouvement au visuel pour les médias, faire la traduction automatique non supervisée est très efficace

Auteur | Jiang Shang Bao

Lorsque la barrière de la langue lorsque deux personnes de communiquer, les gestes et les yeux sont devenus naturellement un artefact de communication. Parfois, les gestes et le contact visuel lorsque le sens de l'expression peut être vaut mille mots.

Cela ne peut pas être des avantages similaires avec la traduction automatique?

Récemment, de DeepMind, Université d'Oxford et les chercheurs de Carnegie Mellon a publié un document ensemble « de terre visuel dans la vidéo pour la traduction Unsupervised mot », proposé la cartographie des mots sans supervision pour améliorer la base visuelle.

(Lei Feng réseau) papiers Cipian ont été acceptés pour la CVPR 2020. Les articles portent sur: https: //arxiv.org/pdf/2003.05078.pdf

L'idée de base de cet article est: l'humanité sur terre pourrait dire des milliers de langues différentes, mais avec « l'il » pour voir le monde est en effet une seule, avec cette base visuelle, nous pouvons combler le fossé entre les langues.

L'idée générale: en utilisant les vidéos pédagogiques se partagent la vision

Sur le papier la méthode est très simple d'utilisation, le modèle par « regarder » la vidéo, d'établir une représentation visuelle commune entre les deux langues, à savoir dans un bâtiment donné une vision commune intégrée dans le cas - algorithme de mise en correspondance de texte mixte.

(Lei Feng réseau), bien que dans plusieurs langues, décrit la même chose

Voici un exemple simple, lorsque les enfants apprennent la langue, plus est d'observer l'environnement et d'interagir avec les gens autour, dans le processus, ne nécessite pas de directives claires et de supervision. Quand ils apprennent plusieurs langues, vous pouvez profiter de situations similaires dans des circonstances différentes: il a entendu un « chien manger » en voyant de vue, l'ouïe et de la vue vendredi quand phrase « le chien mange » pour voir le lundi il est similaire.

Les auteurs lors de la construction du système de traduction sans supervision, tire sur les idées ci-dessus: les gens font des choses dans différents pays pour fournir une vidéo au système, tout en utilisant leur langue maternelle pour expliquer ce qu'ils font. La sélection de contenu est à peu près similaire à des vidéos pédagogiques, par exemple, bien que dans des langues différentes, mais enseigner aux gens comment Coincée cours vidéo d'enseignement de jus d'orange.

Il y a beaucoup de vidéos pédagogiques sur YouTube, et la similitude du contenu est très élevé, de sorte que les auteurs ont utilisé comme données d'enseignement vidéo de formation. Bien que l'utilisation de la technologie de reconnaissance automatique de la parole peut être beaucoup de vidéo et correspondant légende, mais les données recueillies a de nombreux défauts: Tout d'abord, le contenu du regroupement vidéo d'enseignement n'est pas facile, parfois suivie d'une vidéo d'instruction dans le « professeur », a déclaré hors-sujet merde.

Bien qu'il existe des défis, mais cette vision commune pour promouvoir l'exactitude de la traduction. Comme le montre, la traduction des documents présentés à la française et britannique comme indiqué ci-dessus. On dit qu'en regardant la vidéo, dans la traduction des mots couramment utilisés et les mots visuels peuvent atteindre le taux correct de 28,0% et 45,3%, par rapport à la méthode de traduction basée sur la précision de récupération de 12,5% et 18,6% de plus que beaucoup.

Modèle d'architecture: apprentissage non supervisé en plusieurs langues

(Réseau Lei Feng)

Comme indiqué plus haut, l'ensemble du modèle comprend trois codeurs, un pour la langue X et un Y et Z, un pour la vidéo. Ce modèle est composé de trois codeurs, après la formation, l'objectif est d'être en mesure d'établir la langue vidéo Z X Y et la mise en correspondance des langues.

Langue codeurs X se compose de trois parties: un mot de couche enterrée; 2, la couche (une couche de feed-forward position sage reliée intégralement) réseau d'alimentation avant que la simple position totalement connectée, 3, une couche linéaire. Dans lequel l'effet de la parole couche enterrée est de convertir la séquence de vecteur de dimension, la couche réseau feedforward avant pleine action de couplage est maintenant la plus grande piscine du mot, et génère ensuite un vecteur de dimension de séquence; effet linéaire couche est de créer un espace d'insertion commune et la représentation intermédiaire (Intermédiaire représentation) cartographie.

Y codeur pour la langue, l'utilisation de modèles translinguistique partage des poids, la couche de à savoir les droits de partage et dernière couche un poids linéaire entre la langue X et la langue de Y. Pour différentes entrées de la langue de la couche partagée du mot dans le langage Y est une couche linéaire appelée AdaptLayer ajoutée après couche d'enrobage.

effet AdaptLayer est de changer l'espace d'insertion de mot de la langue Y la langue de mot Y intégré dans l'intégration de mot de langage similaire X est possible.

À propos des encodeurs vidéo, l'utilisation du modèle standard I3D, plus un linéaire mis en correspondance avec la couche de sortie intégrée dans l'espace commun. Note de l'éditeur: Le modèle I3D peut être comprise comme à partir d'une version améliorée du réseau de convolution 2D, signifie deux flux Gonflé 3D ConvNet, son journal a été inclus en 2017 CVPR.

f, g, h langue correspondant X, Y, et la fonction vidéo enrobage de Z, L est défini comme étant la fonction de perte.

Comme le montre, selon les auteurs introduisent, en définissant la formule ci-dessus, peut être étendu cible d'optimisation de la stratégie de formation du modèle entier comme une formule à la situation multilingue.

La formule ci-dessus L (f, h) est définie comme suit:

NCE est défini comme suit:

En réduisant au minimum la fonction de perte ci-dessus modèle de formation commune peut établir la cartographie des deux langues, qui est, pour une donnée xX, se trouve yY.

Expérience: « I » modèle plus robuste

Dans la partie expérimentale, le courant peut atteindre la comparaison modèle de traduction basé sur le texte SOTA, les auteurs ont constaté que leur modèle est plus remarquable dans la traduction.

Au cours de l'expérience, l'auteur de la transcription de la vidéo ont été jeton, 65.536 pour chaque langue la plus couramment utilisée mot Converge à un vocabulaire. Après prétraitement, les auteurs ont utilisé mot word2vec de monolingues de formation intégré et (algorithme proposé par les auteurs) à MUVE, MUSE et VecMap intégrés dans ces modèles utilisent des pré-formés.

Dans la formation, un clip vidéo d'extraits concentrés ses overs correspondants à partir des données. Chaque lot comprend la formation d'un fragment de langue à partir de toutes les langues, et la perte dans le NCE chaque élément est un élément négatif provenant d'un autre lot de la même langue.

En outre, pour l'encodeur vidéo, I3D Modèle de Kinetics-400 sur le plateau de données pré-formé est finement ajustée pour un modèle de langue pré-formation des mots sur des couches intégrées respectives HowToW-Text ensemble de données.

Les auteurs ont utilisé optimiseur Adam, le taux d'apprentissage initial est fixé à 10 (-3), la capacité de traitement par lots de 128, et les deux modèles de formation nuage TPU 200K itérations.

En termes de recherche peut améliorer la qualité de la traduction de texte, l'auteur sera propriétaire de l'autre base de deux modèles de comparaison. La première ligne de base (Random Chance) est utilisé sans l'utilisation de la traduction extraite vidéo, le deuxième groupe utilise la récupération vidéo (récupération vidéo), créer un corpus parallèle en utilisant la vidéo entre deux langues.

Comme indiqué ci-dessus en anglais à la traduction française, l'auteur de la performance du modèle sur les deux points de référence nettement mieux que la ligne de base. En outre, MUVE (ligne 4) que soit le modèle de base (ligne 3) avait une amélioration significative (avec + 19,8% + 30,3% et une amélioration absolue dans le dictionnaire de mot et la simple référence, respectivement)

Ainsi, le modèle peut améliorer le mot basé sur le texte méthode de traduction dans quelle mesure? Trois de la méthode expérimentale et une méthode supervisée non surveillée, toutes les méthodes utilisées dans le mot intégré HowToW-texte sur les méthodes de formation.

Comme ci-dessus, les auteurs comparent les résultats de la traduction entre l'anglais et le français, le coréen et le japonais après MUVE de optimale, la traduction de l'auteur entre l'anglais et la Corée anglais-japonais a une amélioration très importante sur la méthode à base de texte.

Mais il montre aussi une approche simple à base de texte est plus approprié pour « look » un langage similaire, comme l'anglais et le français.

Comment la traduction mot sans supervision solide? Comme indiqué plus haut, les auteurs démontrent la performance MUVE, MUSE, VecMap concentré Recall @ EF dans le dictionnaire de données 10, et la distance par JS (JENSEN-shannon, représenté par la table ~) mesurer le degré de similitudes et les différences.

Les résultats ont montré que, lorsque Dangdang Corpus similaires (par exemple Wiki-En-et Wiki FR), toutes les méthodes fonctionnent bien. Lorsque dissemblables Corpus, MUVE est supérieure à d'autres méthodes, mais aussi plus robuste.

Lorsque différentes quantité de données de formation, le modèle de la façon dont la performance? La figure montre 100% du montant initial des données collectives, 10%, 1% des résultats des données de formation, mesurée par Recall @ 10, est clairement la méthode de l'auteur dans les cas de faibles ressources (manque de corpus de formation) de meilleurs résultats.

En outre, lorsque la quantité de changement de vocabulaire, comme indiqué ci-dessus, non seulement diminuer la performance de la méthode de MUSE. D'autres méthodes basées sur des textes dépendent de la taille du vocabulaire.

"Double Dutch" 600 pages sera officiellement publié! Problème le plus légendaire génie mathématicien est résolu?
Précédent
ACL 2020 a publié les résultats du recrutement, l'affichage briser 3000, l'histoire du feu dans le haut de la PNL feriez-vous?
Prochain
Cour de l'administrateur de l'insolvabilité approche de gestion hiérarchique de Tianjin populaire supérieur
Xi Jinping temps de Contagion
haut émergents: voiture 5G sous la nouvelle infrastructure de réseau numérique, ce qui permet l'innovation automatique de conduite et de transport intelligents
Multi-ciblage dans des scénarios complexes - Résumé de l'algorithme d'apprentissage en profondeur
La perception visuelle, ainsi que le poste de pilotage intelligent et, ADI peut saisir l'occasion de conduire une conduite automatique?
Pourquoi LSTM si efficace? Les cinq secrets que vous devez savoir
anti-écoute électronique hard-core! Mac dispose spécifiques à l'iPad: la plupart mécanisme de protection stricte de l'industrie, basée sur la puce T2
La dernière Linux Mint 20 Divulgation: Code « Ulyana », abandonner les systèmes 32 bits
300 millions $, « le père japonais de l'Internet » a vendu 14 millions d'adresses IPv4
2019 drame le plus chaud qui? 2020 drame qui se déclenche? Un article vous emmène à travers le brouillard
Jan ville d'ombre un peu féroce, ces films ne valent pas vos billets?
"Airborne Rose" début de la floraison! Nouvelle année pour la première fois pour voir le parachutiste féminine formation en parachute