AAAI2020 | Automatisation et micro-canal AI: double canal mod�le de raisonnement en plusieurs �tapes, un meilleur dialogue visuel pour r�soudre les probl�mes g�n�r�s

Auteur | pr�sident Alfred Chen Modifier | Camel

Cet article est un Institut Acad�mie chinoise des sciences de l'automatisation et Tencent lettre micro �quipe ensemble pour AI compl�te, a �t� embauch� papier AAAI2020 � DMRM: Un multi-hop � deux canaux pour mod�le Raisonnement dialogue visuel � interpr�ter les travaux pertinents a �t� open source.

Adresse Papers: https: //arxiv.org/abs/1912.08360

Adresse Code: https: // github .com / Phellonchen / DMRM

Pour r�soudre le dialogue actuel entre le syst�me visuel dans le langage visuel des deux modes se r�f�rer tours, le raisonnement et l'information sur des questions telles que l'alignement, l'automatisation Dr. pr�sident Alfred Chen, Xu Jiaming chercheur associ� et chercheur Xu Bo, qui, avec Tencent pour construire une sorte de plusieurs �tapes � double canal raisonnement mod�le de g�n�ration de dialogue visuel, la marque et le mod�le de langage visuel de deux aspects du probl�me de la repr�sentation s�mantique riche, mieux identifier les questions g�n�rent des r�ponses de qualit�.

Contexte et objectifs de recherche

En raison du d�veloppement rapide du traitement du langage naturel et de la technologie de vision par ordinateur, question multimodaux a �t� de plus en plus attention . dialogue visuel est une t�che de langage visuel interactif qui n�cessitent IA intelligente et humaine de communiquer autour de la m�me image d'entr�e. Ceci est une t�che difficile, ce qui n�cessite des mod�les pour comprendre les questions humanit� cycle actuel du dialogue, alors que l'int�gration effective de la modalit� de langage visuel et historique des conversations d'image d'entr�e modale � attention Les probl�mes li�s � l'information s�mantique actuelle et le raisonnement, �tant donn� r�ponse de haute qualit�. L'�quipe de recherche propose un mod�le de raisonnement en plusieurs �tapes � double canal (appel� DMRM) dialogue sur les t�ches visuelles.

mod�le de trame de la figure 1 DMRM

M�thodes exp�rimentales

DMRM capture par l'utilisation d'inf�rence synchrone � deux canaux d'historique des conversations et les informations d'image d'entr�e exprim�e en probl�me s�mantique riche.

Plus pr�cis�ment, DMRM maintenir une croix-modalit� deux canaux d'interaction (figure. 1, Piste module est responsable des aspects visuels du probl�me riche repr�sentation s�mantique, Localiser le module est responsable des aspects historiques du probl�me riche repr�sentation s�mantique du dialogue), � travers chaque canal raisonnement en plusieurs �tapes (fig. 2) pour obtenir les probl�mes actuels li�s aux caract�ristiques visuelles et l'historique des conversations, et l'image d'entr�e en cours et la fonction de la langue li�e. En outre, l'�quipe a �galement con�u un m�canisme d'attention multimodaux pour am�liorer encore le d�codeur pour g�n�rer une r�ponse plus pr�cise.

Figure 2, une vue sch�matique d'un raisonnement en plusieurs �tapes

�quipe dans l'introduction du d�codeur visuel de t�ches de dialogue du m�canisme d'attention multimodale, ce qui facilite effectivement les limites de l'utilisation de la seule sortie du codeur fusion d'information multimodale, mieux en mesure de corriger certaines erreurs et s�mantiquement riches dans le processus de d�codage.

La figure 3 sur la base d�codeur multimodale remarqu�e

Les r�sultats exp�rimentaux

L'�quipe a effectu� des exp�riences sur VisDial v0.9 et v1.0 VisDial deux ensembles de donn�es publiques. VisDial ensemble de formation v0.9 contient 83k, jeu de test 40K, chaque image correspondant � l'image 10 et la description de la session. VisDial v1.0 inclut l'ensemble de la formation 123k, 2k et 8k test de jeu ensemble de validation.

Le tableau 1 et le tableau 2 montre les r�sultats exp�rimentaux sur les deux mod�les diff�rents d'ensembles de donn�es. Comme on le voit, la plupart de l'�valuation sur le multi-�tape mod�le visuel dialogue d'inf�rence g�n�rant DMRM double canal sont meilleurs que les autres (dans lequel, MRR, R @ k plus le meilleur, plus le mieux sur la moyenne).

Tableau 1 Les r�sultats exp�rimentaux de diff�rents mod�les dans l'ensemble de donn�es VisDial v0.9

Les r�sultats du tableau 2 Mod�le VisDial ensemble de donn�es v1.0

Le tableau 3 montre le double canal dialogue inf�rence visuelle en plusieurs �tapes DMRM g�n�rer une ablation dans le mod�le, l'effet de chaque module pour la t�che de dialogue des effets visuels, on peut voir plusieurs �tapes � double canal et d�codeur de raisonnement multi-modal joue un r�le important.

Table des Ablation 3 DMRM

La figure 4 montre les r�sultats des r�ponses g�n�ration de mod�le DMRM, l'int�gration du d�codeur mod�le DMRM multimodaux donne de meilleurs r�sultats dans la pr�cision et la richesse s�mantique.

La figure 4 les r�sultats des �chantillons g�n�r�s dialogue visuel

Route de la soie

Apprenez � conna�tre la Chine

AAAI2020 | Automatisation et micro-canal AI: double canal mod�le de raisonnement en plusieurs �tapes, un meilleur dialogue visuel pour r�soudre les probl�mes g�n�r�s