AAAI 2020 | indications fiducial multimodal formule multimodale automatique Abstracting

Auteur | Zhujun Nan, Zhang Jiajun

Modifier | fin Cong

résumé automatique Multimodal est l'utilisation d'un procédé implémenté par ordinateur de génération d'informations contenant résumé graphique à partir de deux ou plusieurs modalités (par exemple, images, textes, etc.) dans le. La technologie peut être largement utilisé dans les flux d'information, le fournisseur d'électricité transfrontalier, la description du produit et d'autres génération automatique a une importante valeur de la recherche et des scénarios d'application riches.

Ces dernières années, avec le développement de la vision informatique et de la technologie de traitement du langage naturel, la technologie de résumé automatique multi-modale est devenu une recherche universitaire et industrielle chaude. La raison pour laquelle l'automatique multi-modale actuelle abstraction limitée par les données lui-même ne peut utiliser la fonction log-vraisemblance négative en mode texte perdu comme cible de formation l'ensemble du réseau, tout en profitant des mécanismes attentionnels pour aider à la sélection des images.

Cette approche est facile d'amener le biais modal est un problème que l'ensemble du réseau aura tendance à optimiser la qualité de l'image de texte généré tout en ignorant le processus de sélection, comme le montre la figure. Si considérer seulement la perte de la modalité de texte, B est mieux que résumé sommaire A, il est clair caractère sommaire des photos B ne sont pas relation correspondante, lorsque nous avons introduit la perte d'image sélectionnée, on peut clairement juger A résumé le résumé est meilleur que B, et est également compatible avec les faits de base.

Exemple 1 déviation de mode

méthode papier

Pour les problèmes, Institut Académie des Sciences de Chine du groupe d'automatisation traitement des langues naturelles mentionnées ci-dessus au doctorat Zhujun Nan, chercheur Zhou Yu, chercheur Zhang Jiajun, devait célébrer le chercheur a proposé des directives fiducial multimodal de multimodal automatique Summarization. L'idée de base est d'optimiser la formation de résumé multi-modale de la fonction objectif, à savoir augmenter la perte de la fonction de l'image sélectionnée sur la base du texte de la perte.

2, qui se compose de trois parties:

  • Extrait du texte de description de texte standard (1) en utilisant la première série de caractéristiques de données seront eux-mêmes que des données de formation textuelles étendues jusqu'à le mode de référence, principalement deux modes, à savoir, la séquence d'images d'entrée est utilisé directement sorte image ou des images en utilisant ROUGE valeur entre la taille de l'image d'entrée en se référant à la réponse à trier;

  • (2) ajouter une image à un processus de formation pour la détermination de l'image de modèle sélectionné, la fonction de perte de modèle est également sélectionné par le texte et la fonction de perte de l'image fonction de perte de sommation pondérée;

  • (3) l'ensemble de données d'images configurées et le texte de description de texte - l'alignement du segment d'image de sorte que la formation peut être utilisée pour mieux évaluer le modèle d'évaluation fragments multimodal, on précisément, deux paires d'images - le texte de la description (ou de l'image partie) configurée pour échanger deux segments correspondants multimodaux, comme représenté sur la Fig.

La figure 2 châssis de guidage multimodal de référence multi-modal abstraction automatique figure

La figure multi-modal. 3 un fragment d'appariement de configuration schématique

Les résultats expérimentaux

ensemble de données de résumés analytiques automatique Actuellement multimodaux est encore relativement rare, nous avons publié des données publiques mis MSMO avant, ce travail est également effectué des expériences sur l'ensemble de données. Avant la méthode sommaire de comparaison des performances, nous devons d'abord définir ce type d'évaluation devrait être utilisé.

Dans des travaux précédents, l'évaluation abstraite graphique attention Les trois indicateurs: précision de l'image (IP), la valeur de corrélation de l'extrait de texte ROUGE (ROUGE-L) et le texte de l'image de sortie du système (MSIM).

Dans notre approche, nous proposons une nouvelle évaluation automatique MRmax utilisé pour mesurer directement la similitude (et les réponses de sortie de référence de similarité maximum) entre deux informations multimodales. MDAR est une combinaison de la propriété intellectuelle, ROUGE et MSIM de, MDAR ++ est une combinaison de la propriété intellectuelle, ROUGE, MSIM et MRmax quatre indice d'évaluation automatique. Nous utilisons la corrélation artificielle entre les scores de comparer différentes autoévaluations.

Tableau 1 corrélation entre l'indice d'évaluation et artificielle échelle différente (le score le plus élevé, meilleure est la performance)

Le tableau 1 montre la corrélation suivante d'évaluation différente de pointage automatique et manuel, il peut être vu directement dans le fragment multimodal d'évaluation de mesure du MR, le nouveau modèle d'évaluation automatisée MDAR MDAR ++ par rapport à la notation liée à artificielle il y a une amélioration significative du degré.

Pour mesurer le modèle de référence multimodale, nous vous proposons des conseils, nous avons comparé avec une pluralité de solide modèle de base, comprend modèle abstrait automatisé générant une des caractéristiques visuelles globales ou locales dans le mécanisme de mise au point multimodal (ATG, ATL), modèle hiérarchique multi-modal abstraction automatique (HAN), et l'extraction automatique modèle abstrait sur la base du modèle de. la figure (GR).

Masse comparaison graphique du Tableau 2 Résumé du modèle généré (MOF de représentation multimodale du guide de référence, RR représente une sorte de valeurs d'image par ROUGE, ou une image séquentielle entrée représentée par le tableau de tri, enc représente caché par le codeur la couche d'image de sélection d'état, décembre représente le décodeur en utilisant l'état de sélection d'image cachée)

Le tableau 2 montre la comparaison des différents modèles générés masse Résumé du télétexte. On peut voir après l'introduction d'une masse de sélection de modèle d'image d'orientation fiducial multimodale (IP) a été considérablement améliorée, et le texte généré légèrement amélioré la qualité, générant ainsi un résumé graphique de qualité supérieure. En ce qui concerne l'état du codeur en utilisant la couche cachée, la couche cachée en utilisant l'état du décodeur pour effectuer la sélection d'image serait mieux

.

D'autre part, la taille de l'image de référence multimodale ROUGE décrit en utilisant une valeur entre l'extrait de l'image et du texte plus apparente à ceux obtenus par le modèle de guide de commande.

Tableau 3 image bon choix d'une grande perte de fonction de petite

Nous avons également comparé la fonction du droit de choisir une autre image pour les effets de perte de poids de la performance du modèle, la perte de poids quand vous pouvez voir des images et des fonctions de texte sont le même poids, la qualité graphique abstraite est le meilleur.

table photo pour calculer la perte en tenant compte de la quantité d'influence 4

Nous avons comparé le nombre d'images prises en compte dans le calcul de la perte de l'image (à savoir l'image en standard d'or haut-K) impact et constaté que, lorsque K = 3, le modèle a obtenu les meilleurs résultats.

Détails voir a été publiée en haut intelligence artificielle académique réunion AAAI 2020 papier:

Junnan Zhu, Yu Zhou, Zhang Jiajun, Haoran Li , Chengqing Zong, Li Changliang. Multimodal Summarization avec orientation Multimodal Référence. AAAI-2020.

Comment les plantes ont survécu à l'extinction massive de la période des organismes?
Précédent
Top Papers, une condition sine qua non pour savoir comment devenir Shenbo?
Prochain
Le plus avancé détecteur d'objets réellement éléphant « cécité »
"Haze"? Attendez, disons pense
2019 Quel environnement spatial événement de l'espace? Espace Shu appel
Survie de sable - arbustes de fixation
Ningbo La valeur nette de dizaines de millions d'hommes mariés après 90, seulement mis quatre tables de vin! Moins de 1 cérémonie d'une heure, même les demoiselles d'honneur ne sont pas! La mariée di
Accueil chez l'homme mauvais état bas en fait jeté toilettes selles deux semaines
L'homme a été tué dans un accident de voiture sur la route de prendre un bain à deux kilomètres?
Big Data | la prochaine fête du Printemps, Wuhan, où les gens ont dû voler?
Astronomers pour la première fois QUASARS mesure de la distance géométrique
dénaturation lumière blazars fait de nouveaux progrès
Académiciens nommé 2019 en Chine, dix nouvelles de progrès scientifique et technologique du monde a annoncé
Ptérosaure évolution des progrès de won hyoïde