Les scientifiques proposent un meilleur dialogue visuel pour r�soudre le probl�me de la double-canal g�n�ration mod�le de raisonnement en plusieurs �tapes

Pour r�soudre le dialogue actuel entre le syst�me visuel dans le langage visuel des deux modes se r�f�rer tours, le raisonnement et des informations sur des questions telles que l'alignement, le Dr Institut de pr�sident d'automatisation Alfred Chen, professeur agr�g� et chercheur Xu Jiaming Xu Bo, qui �taient ensemble avec Tencent construire un raisonnement en plusieurs �tapes � deux canaux mod�le de g�n�ration de dialogue visuel, la marque et le mod�le de langage visuel de deux aspects du probl�me de la repr�sentation s�mantique riche, mieux identifier les questions g�n�rent des r�ponses de qualit�.

En raison du d�veloppement rapide du traitement du langage naturel et de la technologie de vision par ordinateur, question multimodaux a attir� de plus en plus d'attention. dialogue visuel est une t�che de langage visuel interactif qui n�cessitent IA intelligente et humaine de communiquer autour de la m�me image d'entr�e. Ceci est une t�che difficile, ce qui n�cessite des mod�les pour comprendre les questions humanit� cycle actuel du dialogue, alors que l'int�gration effective de la modalit� de langage visuel et historique du dialogue d'image d'entr�e modale afin de se concentrer sur les informations s�mantiques associ�es aux enjeux actuels et raisonnement, donne une r�ponse de haute qualit�. L'�quipe de recherche propose un mod�le de raisonnement en plusieurs �tapes � double canal (appel� DMRM) dialogue sur les t�ches visuelles.

DMRM capture par l'utilisation d'inf�rence synchrone � deux canaux d'historique des conversations et les informations d'image d'entr�e exprim�e en probl�me s�mantique riche. Plus pr�cis�ment, DMRM maintenir une croix-modalit� deux canaux d'interaction (figure. 1, Piste module est responsable des aspects visuels du probl�me riche repr�sentation s�mantique, Localiser le module est responsable des aspects historiques du probl�me riche repr�sentation s�mantique du dialogue), � travers chaque canal raisonnement en plusieurs �tapes (fig. 2) pour obtenir les probl�mes actuels li�s aux caract�ristiques visuelles et l'historique des conversations, et l'image d'entr�e en cours et la fonction de la langue li�e. En outre, l'�quipe a �galement con�u un m�canisme d'attention multimodaux pour am�liorer encore le d�codeur pour g�n�rer une r�ponse plus pr�cise.

�quipe dans l'introduction du d�codeur visuel de t�ches de dialogue du m�canisme d'attention multimodale, ce qui facilite effectivement les limites de l'utilisation de la seule sortie du codeur fusion d'information multimodale, mieux en mesure de faire des erreurs � corriger et s�mantiquement riche dans le processus de d�codage.

L'�quipe a effectu� des exp�riences sur VisDial v0.9 et v1.0 VisDial deux ensembles de donn�es publiques. VisDial ensemble de formation v0.9 contient 83k, jeu de test 40K, chaque image correspondant � l'image 10 et la description de la session. VisDial v1.0 inclut l'ensemble de la formation 123k, 2k et 8k test de jeu ensemble de validation.

Le tableau 1 et le tableau 2 montre les r�sultats exp�rimentaux sur les deux mod�les diff�rents d'ensembles de donn�es. Comme on le voit, la plupart de l'�valuation sur le multi-�tape mod�le visuel dialogue d'inf�rence g�n�rant DMRM double canal sont meilleurs que les autres (dans lequel, MRR, R @ k plus le meilleur, plus le mieux sur la moyenne). Le tableau 3 montre le double canal dialogue inf�rence visuelle en plusieurs �tapes DMRM g�n�rer une ablation dans le mod�le, l'effet de chaque module pour la t�che de dialogue des effets visuels, on peut voir plusieurs �tapes � double canal et d�codeur de raisonnement multi-modal joue un r�le important.

. La figure 4 montre les r�sultats des r�ponses g�n�ration de mod�le DMRM, l'int�gration du d�codeur mod�le DMRM multimodaux une meilleure performance dans la pr�cision et la richesse s�mantique.

les r�sultats de corr�lation ont �t� embauch�s AAAI2020.

mod�le de trame de la figure 1 DMRM

Figure 2, une vue sch�matique d'un raisonnement en plusieurs �tapes

La figure 3 sur la base d�codeur multimodale remarqu�e

Tableau 1 Les r�sultats exp�rimentaux de diff�rents mod�les dans l'ensemble de donn�es VisDial v0.9

Les r�sultats du tableau 2 Mod�le VisDial ensemble de donn�es v1.0

Table des Ablation 3 DMRM

La figure 4 les r�sultats des �chantillons g�n�r�s dialogue visuel

Source: Institut de l'automatisation, l'Acad�mie chinoise des sciences

Route de la soie

Apprenez � conna�tre la Chine

Les scientifiques proposent un meilleur dialogue visuel pour r�soudre le probl�me de la double-canal g�n�ration mod�le de raisonnement en plusieurs �tapes