Auteur | Zhujun Nan, Zhang Jiajun

Modifier | fin Cong

r�sum� automatique Multimodal est l'utilisation d'un proc�d� impl�ment� par ordinateur de g�n�ration d'informations contenant r�sum� graphique � partir de deux ou plusieurs modalit�s (par exemple, images, textes, etc.) dans le. La technologie peut �tre largement utilis� dans les flux d'information, le fournisseur d'�lectricit� transfrontalier, la description du produit et d'autres g�n�ration automatique a une importante valeur de la recherche et des sc�narios d'application riches.

Ces derni�res ann�es, avec le d�veloppement de la vision informatique et de la technologie de traitement du langage naturel, la technologie de r�sum� automatique multi-modale est devenu une recherche universitaire et industrielle chaude. La raison pour laquelle l'automatique multi-modale actuelle abstraction limit�e par les donn�es lui-m�me ne peut utiliser la fonction log-vraisemblance n�gative en mode texte perdu comme cible de formation l'ensemble du r�seau, tout en profitant des m�canismes attentionnels pour aider � la s�lection des images.

Cette approche est facile d'amener le biais modal est un probl�me que l'ensemble du r�seau aura tendance � optimiser la qualit� de l'image de texte g�n�r� tout en ignorant le processus de s�lection, comme le montre la figure. Si consid�rer seulement la perte de la modalit� de texte, B est mieux que r�sum� sommaire A, il est clair caract�re sommaire des photos B ne sont pas relation correspondante, lorsque nous avons introduit la perte d'image s�lectionn�e, on peut clairement juger A r�sum� le r�sum� est meilleur que B, et est �galement compatible avec les faits de base.

Exemple 1 d�viation de mode

m�thode papier

Pour les probl�mes, Institut Acad�mie des Sciences de Chine du groupe d'automatisation traitement des langues naturelles mentionn�es ci-dessus au doctorat Zhujun Nan, chercheur Zhou Yu, chercheur Zhang Jiajun, devait c�l�brer le chercheur a propos� des directives fiducial multimodal de multimodal automatique Summarization. L'id�e de base est d'optimiser la formation de r�sum� multi-modale de la fonction objectif, � savoir augmenter la perte de la fonction de l'image s�lectionn�e sur la base du texte de la perte.

2, qui se compose de trois parties:

Extrait du texte de description de texte standard (1) en utilisant la premi�re s�rie de caract�ristiques de donn�es seront eux-m�mes que des donn�es de formation textuelles �tendues jusqu'� le mode de r�f�rence, principalement deux modes, � savoir, la s�quence d'images d'entr�e est utilis� directement sorte image ou des images en utilisant ROUGE valeur entre la taille de l'image d'entr�e en se r�f�rant � la r�ponse � trier;
(2) ajouter une image � un processus de formation pour la d�termination de l'image de mod�le s�lectionn�, la fonction de perte de mod�le est �galement s�lectionn� par le texte et la fonction de perte de l'image fonction de perte de sommation pond�r�e;
(3) l'ensemble de donn�es d'images configur�es et le texte de description de texte - l'alignement du segment d'image de sorte que la formation peut �tre utilis�e pour mieux �valuer le mod�le d'�valuation fragments multimodal, on pr�cis�ment, deux paires d'images - le texte de la description (ou de l'image partie) configur�e pour �changer deux segments correspondants multimodaux, comme repr�sent� sur la Fig.

La figure 2 ch�ssis de guidage multimodal de r�f�rence multi-modal abstraction automatique figure

La figure multi-modal. 3 un fragment d'appariement de configuration sch�matique

Les r�sultats exp�rimentaux

ensemble de donn�es de r�sum�s analytiques automatique Actuellement multimodaux est encore relativement rare, nous avons publi� des donn�es publiques mis MSMO avant, ce travail est �galement effectu� des exp�riences sur l'ensemble de donn�es. Avant la m�thode sommaire de comparaison des performances, nous devons d'abord d�finir ce type d'�valuation devrait �tre utilis�.

Dans des travaux pr�c�dents, l'�valuation abstraite graphique attention Les trois indicateurs: pr�cision de l'image (IP), la valeur de corr�lation de l'extrait de texte ROUGE (ROUGE-L) et le texte de l'image de sortie du syst�me (MSIM).

Dans notre approche, nous proposons une nouvelle �valuation automatique MRmax utilis� pour mesurer directement la similitude (et les r�ponses de sortie de r�f�rence de similarit� maximum) entre deux informations multimodales. MDAR est une combinaison de la propri�t� intellectuelle, ROUGE et MSIM de, MDAR ++ est une combinaison de la propri�t� intellectuelle, ROUGE, MSIM et MRmax quatre indice d'�valuation automatique. Nous utilisons la corr�lation artificielle entre les scores de comparer diff�rentes auto�valuations.

Tableau 1 corr�lation entre l'indice d'�valuation et artificielle �chelle diff�rente (le score le plus �lev�, meilleure est la performance)

Le tableau 1 montre la corr�lation suivante d'�valuation diff�rente de pointage automatique et manuel, il peut �tre vu directement dans le fragment multimodal d'�valuation de mesure du MR, le nouveau mod�le d'�valuation automatis�e MDAR MDAR ++ par rapport � la notation li�e � artificielle il y a une am�lioration significative du degr�.

Pour mesurer le mod�le de r�f�rence multimodale, nous vous proposons des conseils, nous avons compar� avec une pluralit� de solide mod�le de base, comprend mod�le abstrait automatis� g�n�rant une des caract�ristiques visuelles globales ou locales dans le m�canisme de mise au point multimodal (ATG, ATL), mod�le hi�rarchique multi-modal abstraction automatique (HAN), et l'extraction automatique mod�le abstrait sur la base du mod�le de. la figure (GR).

Masse comparaison graphique du Tableau 2 R�sum� du mod�le g�n�r� (MOF de repr�sentation multimodale du guide de r�f�rence, RR repr�sente une sorte de valeurs d'image par ROUGE, ou une image s�quentielle entr�e repr�sent�e par le tableau de tri, enc repr�sente cach� par le codeur la couche d'image de s�lection d'�tat, d�cembre repr�sente le d�codeur en utilisant l'�tat de s�lection d'image cach�e)

Le tableau 2 montre la comparaison des diff�rents mod�les g�n�r�s masse R�sum� du t�l�texte. On peut voir apr�s l'introduction d'une masse de s�lection de mod�le d'image d'orientation fiducial multimodale (IP) a �t� consid�rablement am�lior�e, et le texte g�n�r� l�g�rement am�lior� la qualit�, g�n�rant ainsi un r�sum� graphique de qualit� sup�rieure. En ce qui concerne l'�tat du codeur en utilisant la couche cach�e, la couche cach�e en utilisant l'�tat du d�codeur pour effectuer la s�lection d'image serait mieux

D'autre part, la taille de l'image de r�f�rence multimodale ROUGE d�crit en utilisant une valeur entre l'extrait de l'image et du texte plus apparente � ceux obtenus par le mod�le de guide de commande.

Tableau 3 image bon choix d'une grande perte de fonction de petite

Nous avons �galement compar� la fonction du droit de choisir une autre image pour les effets de perte de poids de la performance du mod�le, la perte de poids quand vous pouvez voir des images et des fonctions de texte sont le m�me poids, la qualit� graphique abstraite est le meilleur.

table photo pour calculer la perte en tenant compte de la quantit� d'influence 4

Nous avons compar� le nombre d'images prises en compte dans le calcul de la perte de l'image (� savoir l'image en standard d'or haut-K) impact et constat� que, lorsque K = 3, le mod�le a obtenu les meilleurs r�sultats.

D�tails voir a �t� publi�e en haut intelligence artificielle acad�mique r�union AAAI 2020 papier:

Junnan Zhu, Yu Zhou, Zhang Jiajun, Haoran Li , Chengqing Zong, Li Changliang. Multimodal Summarization avec orientation Multimodal R�f�rence. AAAI-2020.

Route de la soie

Apprenez � conna�tre la Chine

AAAI 2020 | indications fiducial multimodal formule multimodale automatique Abstracting

m�thode papier

Les r�sultats exp�rimentaux