AAAI2020 | Automatisation et micro-canal AI: double canal modèle de raisonnement en plusieurs étapes, un meilleur dialogue visuel pour résoudre les problèmes générés

Auteur | président Alfred Chen Modifier | Camel

Cet article est un Institut Académie chinoise des sciences de l'automatisation et Tencent lettre micro équipe ensemble pour AI complète, a été embauché papier AAAI2020 « DMRM: Un multi-hop à deux canaux pour modèle Raisonnement dialogue visuel » interpréter les travaux pertinents a été open source.

Adresse Papers: https: //arxiv.org/abs/1912.08360

Adresse Code: https: // github .com / Phellonchen / DMRM

Pour résoudre le dialogue actuel entre le système visuel dans le langage visuel des deux modes se référer tours, le raisonnement et l'information sur des questions telles que l'alignement, l'automatisation Dr. président Alfred Chen, Xu Jiaming chercheur associé et chercheur Xu Bo, qui, avec Tencent pour construire une sorte de plusieurs étapes à double canal raisonnement modèle de génération de dialogue visuel, la marque et le modèle de langage visuel de deux aspects du problème de la représentation sémantique riche, mieux identifier les questions génèrent des réponses de qualité.

Contexte et objectifs de recherche

En raison du développement rapide du traitement du langage naturel et de la technologie de vision par ordinateur, question multimodaux a été de plus en plus attention . dialogue visuel est une tâche de langage visuel interactif qui nécessitent IA intelligente et humaine de communiquer autour de la même image d'entrée. Ceci est une tâche difficile, ce qui nécessite des modèles pour comprendre les questions humanité cycle actuel du dialogue, alors que l'intégration effective de la modalité de langage visuel et historique des conversations d'image d'entrée modale à attention Les problèmes liés à l'information sémantique actuelle et le raisonnement, étant donné réponse de haute qualité. L'équipe de recherche propose un modèle de raisonnement en plusieurs étapes à double canal (appelé DMRM) dialogue sur les tâches visuelles.

modèle de trame de la figure 1 DMRM

Méthodes expérimentales

DMRM capture par l'utilisation d'inférence synchrone à deux canaux d'historique des conversations et les informations d'image d'entrée exprimée en problème sémantique riche.

Plus précisément, DMRM maintenir une croix-modalité deux canaux d'interaction (figure. 1, Piste module est responsable des aspects visuels du problème riche représentation sémantique, Localiser le module est responsable des aspects historiques du problème riche représentation sémantique du dialogue), à travers chaque canal raisonnement en plusieurs étapes (fig. 2) pour obtenir les problèmes actuels liés aux caractéristiques visuelles et l'historique des conversations, et l'image d'entrée en cours et la fonction de la langue liée. En outre, l'équipe a également conçu un mécanisme d'attention multimodaux pour améliorer encore le décodeur pour générer une réponse plus précise.

Figure 2, une vue schématique d'un raisonnement en plusieurs étapes

Équipe dans l'introduction du décodeur visuel de tâches de dialogue du mécanisme d'attention multimodale, ce qui facilite effectivement les limites de l'utilisation de la seule sortie du codeur fusion d'information multimodale, mieux en mesure de corriger certaines erreurs et sémantiquement riches dans le processus de décodage.

La figure 3 sur la base décodeur multimodale remarquée

Les résultats expérimentaux

L'équipe a effectué des expériences sur VisDial v0.9 et v1.0 VisDial deux ensembles de données publiques. VisDial ensemble de formation v0.9 contient 83k, jeu de test 40K, chaque image correspondant à l'image 10 et la description de la session. VisDial v1.0 inclut l'ensemble de la formation 123k, 2k et 8k test de jeu ensemble de validation.

Le tableau 1 et le tableau 2 montre les résultats expérimentaux sur les deux modèles différents d'ensembles de données. Comme on le voit, la plupart de l'évaluation sur le multi-étape modèle visuel dialogue d'inférence générant DMRM double canal sont meilleurs que les autres (dans lequel, MRR, R @ k plus le meilleur, plus le mieux sur la moyenne).

Tableau 1 Les résultats expérimentaux de différents modèles dans l'ensemble de données VisDial v0.9

Les résultats du tableau 2 Modèle VisDial ensemble de données v1.0

Le tableau 3 montre le double canal dialogue inférence visuelle en plusieurs étapes DMRM générer une ablation dans le modèle, l'effet de chaque module pour la tâche de dialogue des effets visuels, on peut voir plusieurs étapes à double canal et décodeur de raisonnement multi-modal joue un rôle important.

Table des Ablation 3 DMRM

La figure 4 montre les résultats des réponses génération de modèle DMRM, l'intégration du décodeur modèle DMRM multimodaux donne de meilleurs résultats dans la précision et la richesse sémantique.

La figure 4 les résultats des échantillons générés dialogue visuel

Nord, ouverte en fonction de la combinaison, la création en temps réel la plus forte segmentation du réseau sémantique
Précédent
Depuis l'apprentissage supervisé, l'apprentissage en profondeur comment enregistrer des données de la situation?
Prochain
Car Smart Toy fabricant Qi Shida Hong Kong marché boursier: Lamborghini ne vous attendez pas à faire de l'argent si
modèles version double pour tester l'eau à nouveau, Apple brillant à graver 6 fois l'iPhone?
Quelle est la raison derrière la baisse de l'or?
Non seulement la recherche de l'enquête, le marketing faction pragmatique, comment faire?
Conférence téléphonique, s'ennuyer
Aujourd'hui, ces institutions d'acheter 12 actions, vendu 116 millions de yuans Shu de médecine de plongée oeil CBBC
« L'apprentissage d'arrêt fermé » - Académie chinoise des sciences du cerveau Chi Centre d'excellence offrent des cours de vidéo en direct
Vaccins - l'histoire, le mécanisme et les catégories
Lire un MEMS de fabrication lithographie par faisceau texte et électronique
[Janvier] vous ne devriez pas manquer le grand inventaire des dix Good Man « original »
Les scientifiques proposent un meilleur dialogue visuel pour résoudre le problème de la double-canal génération modèle de raisonnement en plusieurs étapes
[Janvier] vous ne devriez pas manquer le grand inventaire des dix « points chauds » micro-lettre