été USTC devrait planifier: réseau de réflexion - une séquence de structure de réseau générée | Partager Résumé

Lei Feng réseau AI Technology Review par: codeur basé - séquence architecture de décodeur de modèle générateur tâches de texte largement utilisé, comme la traduction de la machine nerveuse, digérer génération, les systèmes de dialogue. Cependant, les modèles existants sont générés une seule fois lorsque la séquence génération, sans que le processus itératif de « contrôle » de. Le contrôle effectué dans notre traduction, lors de la rédaction des articles est une pratique très courante. Ainsi, les chercheurs « Redéfinir » le modèle de génération de séquence d'introduction, le réseau d'examen proposé, afin d'améliorer la qualité de la génération de séquence.

Dans l'auditorium récent GAIR réseau Lei Feng de la ligne classe ouverte, de la Chine HKUST - l'été devrait planifier camarade de classe Dr. Microsoft cours de formation conjointe afin de partager un article inclus dans le document 2017 NIPS: Délibération Réseaux: Séquence génération Au-delà Décodage One-Pass. Il est aussi une uvre de cet article.

Documents Adresse: http: //papers.nips.cc/paper/6775-deliberation-networks-sequence-generation-beyond-one-pass-decoding.pdf

L'été devrait être la politique, le Dr cinquième année, en train d'étudier à la science de la Chine - Dr Microsoft cours de formation conjointe, la recherche sur l'apprentissage de la machine (y compris l'apprentissage dual, la traduction automatique neurale et MAB), il est l'un des Microsoft Scholar Award 2016.

thème Partager Générer une séquence de structure de réseau - réseau de contrôle:

grandes lignes de l'action

  • Le modèle d'application de génération de structure et la séquence de base (traduction automatique introduit nerf)

  • Structure et algorithmes d'optimisation du réseau examen

  • Les résultats de l'examen du réseau

  • réseau d'examen et d'apprentissage double combiné

La structure de base du modèle et la génération de séquence de demande

réseau examen

Codeur basé - séquence architecture décodeur modèle de générateur est tâche de texte largement utilisé de la traduction automatique de neurones, digérer génération, les systèmes de dialogue. Par exemple, dans la figure de plug-parler - la machine lire une carte, une description du contenu de l'image, résumé texte - donné un long texte, la machine donne une idée approximative de l'article.

Cependant, les modèles existants sont générés une seule fois lorsque la séquence génération, sans que le processus itératif de « contrôle » de. Le contrôle effectué dans notre traduction, lors de la rédaction des articles est une pratique très courante. Par conséquent, nous allons « affiner » le modèle de génération de séquence d'introduction, le réseau d'examen proposé, afin d'améliorer la qualité de la génération de séquence. Dans cette étude, nous avons ajouté au codeur de processus d'examen - cadre de décodeur et réseau proposé raffiné (réseaux Délibération) pour la génération de séquence. réseau d'examen ayant un décodeur à deux étages, dans lequel le décodeur destiné à décoder la première étape pour générer la séquence d'origine, la deuxième étape du procédé de décodage d'un examen par meulage et polissage l'état d'origine. Depuis le second décodeur étape de l'examen quel genre de phrase qui devrait générer des informations globales afin qu'il puisse produire un avenir meilleur en regardant la séquence de mots de la phrase originale de la première étape. Traduction automatique nerveuse et texte automatique des expériences démontrent l'efficacité récapitulation de notre examen du réseau proposé. En 2014 WMT Anglais à des tâches de traduction en français entre notre modèle pour atteindre le score BLEU de 41,5.

Après une machine pour la traduction, la tâche de traducteur nécessite un codeur décodeur complet et structure.

mécanismes attentionnels

Après la structure de base de la façon d'avoir un système de formation? Maintenant, la génération de séquence générale ou le traitement du langage naturel et sont basées sur les méthodes de fin de formation, répartis en trois processus: la formation, le raisonnement et l'évaluation.

Traduction automatique Nerve processus de recherche directionnel (recherche par faisceau)

Réseau d'examen objectif

Les modèles existants ne sont générées que lorsque la séquence une fois que la génération, sans que le processus itératif de « contrôle » de. Et « délibérer » dans notre traduction, lors de la rédaction des articles est une pratique très courante. Par exemple, en lisant l'article quand il a rencontré connaît pas le mot au dictionnaire peut ne pas être immédiat, mais ignorer le mot lu à la fin de l'article, puis tourner à deviner ce que le mot voulait dire. Un autre exemple est lorsque le papier écrit, il peut être le premier à écrire un projet, puis continuer à modifier, d'avoir un cadre général, pour obtenir des informations mondiales, veulent probablement savoir ce que l'expression, puis continuer à affiner écrire à la fin ce que cela signifiait. Ces deux exemples illustrent l'importance de regarder en avant et obtenir l'information mondiale.

Par conséquent, nous allons « affiner » le modèle de génération de séquence d'introduction, le réseau d'examen proposé, afin d'améliorer la qualité de la génération de séquence. Maintenant, la génération de séquence de nerfs et des tâches de traduction automatique, le décodeur est pas « regard vers l'avenir » du processus.

Ce qui suit est probablement trame réseau de contrôle, le codeur est à gauche, le côté droit est un décodeur. Bleu, jaune et vert, respectivement, montrant la partie de codeur E, la première étape et la deuxième étape de décodage des décodeurs D1 D2. processus d'interprétation du programme spécifique Regarder la lecture vidéo.

Ceux-ci font partie du modèle, ce qui suit décrit l'application et les résultats des tests spécifiques.

Deux tâches sont résumés de traduction automatique nerveux et texte. Il utilise deux modèles, un modèle est peu profond, tout en vérifié l'effet du modèle de profondeur.

modèle peu profond, un modèle unique couche est largement appliquée GRU nommée base RNNSearch, modèle de profondeur, semblable au modèle fondé sur une profondeur de LSTM GNMT. Ces deux types de modèles sont mis en uvre dans le Théano.

effet de traduction automatique sur le modèle de faible profondeur nerf

Traduction automatique neurale (TMN) est l'ensemble des données utilisées en Grande-Bretagne et la France et l'ensemble de données Royaume-Uni. modèle standard NMT est constitué d'un codeur (codant pour une phrase source), et un décodeur (pour générer une certaine phrase) composition, puisque le réseau peut être amélioré en utilisant notre examen proposé. Sur WMT '14 anglais français données Définie en fonction des résultats expérimentaux sur un seul GRU modèle largement utilisé a montré que: par rapport à ne pas utiliser l'examen des modèles, l'examen peut utiliser pour améliorer les scores de 1,7 UEBL.

Nous avons également appliqué notre modèle sur la traduction chinoise anglais, et quatre jeux de tests différents pour améliorer la moyenne réalisée UEBL 1,26. En outre, sur WMT '14 anglais tâche de traduction française, par l'examen appliqué aux modèles LSMC de profondeur, nous avons réalisé le score de 41,50 UEBL.

Résumé du texte, les articles à venir de longues regroupées en tâches courtes de synthèse. Cette tâche peut utiliser l'encodeur - cadre de décodeur, il peut être utilisé pour affiner le réseau de traitement de fin. Les résultats expérimentaux montrent que les ensemble de données améliorées réseau Gigaword peut ROUGE-1, 2 et ROUGE-ROUGE-L, respectivement 3.45,1.70 et 3.02 levage.

L'apprentissage dual

Pourquoi étudier d'apprentissage double? Parce que la nature de nombreuses tâches sont double, telles que l'anglais - français, français - anglais est une paire d'enfants double tâche, la voix-texte, text-to-speech est également une paire d'enfants double tâche, la classification de l'image et la génération d'images aussi une paire d'enfants de la double tâche. Ils sont l'autre entre une tâche inverse, il y aura certainement un lien entre eux, nous voulons profiter de la dualité entre eux, d'améliorer l'exécution des tâches. La expression la plus directe est capable d'utiliser très efficacement les données, y compris les données et il n'y a pas de données sur l'étiquette standard. Dualité devrait apprendre à utiliser? Cliquez sur le texte à la fin de la lecture vidéo.

Conclusions et travaux futurs

Dans cette étude, nous proposons un réseau pour les tâches de génération de séquence délibérée, les expériences montrent que notre méthode peut obtenir de meilleurs résultats que plusieurs méthodes standard dans la traduction automatique et texte tâche de compression.

Il peut explorer plus à l'avenir, avec un potentiel de recherche. Tout d'abord, nous allons étudier comment l'idée d'un examen appliqué à des tâches en dehors de la production de séquences, telles que l'amélioration de la qualité d'image générée GAN, d'autre part, nous allons étudier comment affiner, polonais différents niveaux de réseaux de neurones, comme cachés ou RNN CNN fonction carte, le troisième, on se demande encore s'il y a plus d'étage décodeur (soit plusieurs polonais de séquence de broyage générée), la séquence résultante si elles serait mieux, le quatrième, nous allons étudier comment accélérer le réseau d'examen le raisonnement et le raisonnement pour raccourcir leur temps.

C'est tous les invités partage, adresse de lecture vidéo: http: //www.mooc.ai/open/course/424.

Lei Feng réseau de diffusion classe ouverte, restez à l'écoute pour plus de micro-canal numéro public « AI Technology Review. » Si vous avez manqué les cours en direct, mais aussi à des classes de collège AI Mu Trouver la période de lecture vidéo.

« Metro loin de la maison » nouvelle bande-annonce: vous apporter un avant-goût de ce continent post-apocalyptique
Précédent
Gonghong Jia: 2,45 millions d'investissement 20.000 fois les bénéfices, la version la plus simple de la Chine de l'histoire des investisseurs providentiels
Prochain
5G ne correspond pas à une connexion Wi-Fi, comment tout interconnectée quelle garantie de sécurité?
Sony lentille super-téléobjectif qualité exceptionnelle de mise au point G maître FE 400mm F2.8 apparence GM OSS Critiques
Xu Qing premier partenariat public jeune pour toujours parce que le secret était en train de jouer « vieille aiguille »?
Traders astronomique réveillon du Nouvel An « voler de l'argent », comment bénéficiaire de détail
Partenaire de stockage sécurisé Toshiba V9 USB3.0 évaluation du disque dur mobile
pièces de monnaie feu sur le mécanisme de vote a été mise en doute, Pa profond derrière l'argent du jeu
Qin Shuo: pour créer une âme digne d'embrasser une nouvelle ère de grande vision
Qui Exterminer micro lettre serait?
Konka a publié une nouvelle variété de l'automne, comme Horizons scientifiques et technologiques
Baidu forte dans le domaine de la serrure intelligente, la technologie intelligente ensemble Wrigley a lancé le système de sécurité du grain lettre conjointe serrure intelligente Chine première mise
Github cas de l'histoire des plus grandes attaques DDoS, SAIC Shanghai Wei pour obtenir la première plaque d'essai sans pilote; Huawei P20 détails Exposition: double caméra arrière | Lei Feng Matin
Foire aux yeux des fans, « National Treasure » des deux