Les scientifiques proposent un meilleur dialogue visuel pour résoudre le problème de la double-canal génération modèle de raisonnement en plusieurs étapes

Pour résoudre le dialogue actuel entre le système visuel dans le langage visuel des deux modes se référer tours, le raisonnement et des informations sur des questions telles que l'alignement, le Dr Institut de président d'automatisation Alfred Chen, professeur agrégé et chercheur Xu Jiaming Xu Bo, qui étaient ensemble avec Tencent construire un raisonnement en plusieurs étapes à deux canaux modèle de génération de dialogue visuel, la marque et le modèle de langage visuel de deux aspects du problème de la représentation sémantique riche, mieux identifier les questions génèrent des réponses de qualité.

En raison du développement rapide du traitement du langage naturel et de la technologie de vision par ordinateur, question multimodaux a attiré de plus en plus d'attention. dialogue visuel est une tâche de langage visuel interactif qui nécessitent IA intelligente et humaine de communiquer autour de la même image d'entrée. Ceci est une tâche difficile, ce qui nécessite des modèles pour comprendre les questions humanité cycle actuel du dialogue, alors que l'intégration effective de la modalité de langage visuel et historique du dialogue d'image d'entrée modale afin de se concentrer sur les informations sémantiques associées aux enjeux actuels et raisonnement, donne une réponse de haute qualité. L'équipe de recherche propose un modèle de raisonnement en plusieurs étapes à double canal (appelé DMRM) dialogue sur les tâches visuelles.

DMRM capture par l'utilisation d'inférence synchrone à deux canaux d'historique des conversations et les informations d'image d'entrée exprimée en problème sémantique riche. Plus précisément, DMRM maintenir une croix-modalité deux canaux d'interaction (figure. 1, Piste module est responsable des aspects visuels du problème riche représentation sémantique, Localiser le module est responsable des aspects historiques du problème riche représentation sémantique du dialogue), à travers chaque canal raisonnement en plusieurs étapes (fig. 2) pour obtenir les problèmes actuels liés aux caractéristiques visuelles et l'historique des conversations, et l'image d'entrée en cours et la fonction de la langue liée. En outre, l'équipe a également conçu un mécanisme d'attention multimodaux pour améliorer encore le décodeur pour générer une réponse plus précise.

Équipe dans l'introduction du décodeur visuel de tâches de dialogue du mécanisme d'attention multimodale, ce qui facilite effectivement les limites de l'utilisation de la seule sortie du codeur fusion d'information multimodale, mieux en mesure de faire des erreurs à corriger et sémantiquement riche dans le processus de décodage.

L'équipe a effectué des expériences sur VisDial v0.9 et v1.0 VisDial deux ensembles de données publiques. VisDial ensemble de formation v0.9 contient 83k, jeu de test 40K, chaque image correspondant à l'image 10 et la description de la session. VisDial v1.0 inclut l'ensemble de la formation 123k, 2k et 8k test de jeu ensemble de validation.

Le tableau 1 et le tableau 2 montre les résultats expérimentaux sur les deux modèles différents d'ensembles de données. Comme on le voit, la plupart de l'évaluation sur le multi-étape modèle visuel dialogue d'inférence générant DMRM double canal sont meilleurs que les autres (dans lequel, MRR, R @ k plus le meilleur, plus le mieux sur la moyenne). Le tableau 3 montre le double canal dialogue inférence visuelle en plusieurs étapes DMRM générer une ablation dans le modèle, l'effet de chaque module pour la tâche de dialogue des effets visuels, on peut voir plusieurs étapes à double canal et décodeur de raisonnement multi-modal joue un rôle important.

. La figure 4 montre les résultats des réponses génération de modèle DMRM, l'intégration du décodeur modèle DMRM multimodaux une meilleure performance dans la précision et la richesse sémantique.

les résultats de corrélation ont été embauchés AAAI2020.

modèle de trame de la figure 1 DMRM

Figure 2, une vue schématique d'un raisonnement en plusieurs étapes

La figure 3 sur la base décodeur multimodale remarquée

Tableau 1 Les résultats expérimentaux de différents modèles dans l'ensemble de données VisDial v0.9

Les résultats du tableau 2 Modèle VisDial ensemble de données v1.0

Table des Ablation 3 DMRM

La figure 4 les résultats des échantillons générés dialogue visuel

Source: Institut de l'automatisation, l'Académie chinoise des sciences

[Janvier] vous ne devriez pas manquer le grand inventaire des dix Good Man « original »
Précédent
[Janvier] vous ne devriez pas manquer le grand inventaire des dix « points chauds » micro-lettre
Prochain
Dans les environs de Space
Ningxia multidimensionnelle pharmaceutiques 5 entreprises pour « l'achat et la vente de médicaments de qualité inférieure » soient punis
Thaïlande Cry! Les éléphants transportant les touristes chinois se précipitent toute la famille six personnes ont été blessées
Département éditorial "Seeking Truth": Le système chinois parvient à la gouvernance de la Chine
Dans la nouvelle lutte de l'année pour saisir le jour
AAAI 2020 | Université nationale Chiao Tung & modèle cloud proposé DCMN + de la science et de la technologie, à se fissurer « compréhension à la lecture » des problèmes, a remporté d'obtenir les perf
AAAI 2020 | texte de la limite à - un procédé de détection d'un texte de forme arbitraire
Pourquoi est fonction de réseau de neurones inactif est pas disponible?
capacité de généralisation de combinaison est pauvre? Essayez d'apprendre la profondeur du solveur combiné d'intégration
AAAI2020 | prochain roman épidémie de coronavirus, a également à la réunion?
Il est temps d'abandonner le réseau de neurones récurrents
projets publics WuHan.support officiellement recrutés amis