ACM MM meilleur papier

Leifeng.com AI Technology Review: La meilleure conférence académique dans le domaine du traitement multimédia de l'information ACM MM 2018 (conférence internationale ACM sur le multimédia) a eu lieu à Séoul, en Corée du Sud du 22 octobre au 26 octobre 2018.

Au total, 757 articles ont été soumis lors de cette conférence, recevant 209 articles, avec un taux de réception de 27,61%; dont 64 documents de rapport oral, une proportion de 8,45%. Les domaines les plus soumis sont la «compréhension-multitimédia et la vision», «compréhension du traitement multimédia d'apprentissage en profondeur», «analyse et description de la compréhension-multimodale», «recherche et recommandation interactives et multitimedia», le nombre de soumissions est respectivement de 210, 167, respectivement, respectivement Articles, 86 articles, 79 articles.

Liste des articles privés

Dans l'après-midi du 24 octobre, la liste des prix de la meilleure thèse a été annoncée lors de la conférence.

Meilleurs papiers

Au-delà du récit Description: Génération Poésie à partir d'images par formation multi-adversariens

  • Au-delà de la description narrative: par tradition multi-vendeurs, générez de la poésie à partir d'images

  • Adresse de thèse: https://dl.acm.org/authorize? N660819

  • Voir le texte intégral en chinois dans le journal ci-dessous

Meilleur article d'étudiant

Comprendre les bourdonnements dans des scènes bondées: un apprentissage controversé et une nouvelle référence pour l'analyse multi-humaine

  • Comprendre les gens dans des scènes denses: apprentissage de confrontation profondément intégré et une nouvelle référence d'analyse multisers

  • Adresse de thèse: https://dl.acm.org/authorize? N660810

Deux meilleurs documents de démonstration

Anidance: le mouvement de la danse en temps réel synthétiser à la chanson

  • Anidance: générer de la musique à partir du temps réel à partir de l'action de danse

  • Adresse de thèse: https://dl.acm.org/authorize? N660964

Rencontrez AR-Bot: Rencontre n'importe où, à tout moment avec un robot AR spatial mobile

  • Venez voir AR-Bot: Rencontrez des robots AR qui peuvent se déplacer dans différents espaces, à tout moment, n'importe où

  • Adresse de thèse: https://dl.acm.org/authorize? N660976

Meilleurs papiers de compétition de logiciels open source avec deux articles

Vif: environnement virtuel pour l'apprentissage en profondeur visuelle

  • Vif: environnement virtuel pour l'apprentissage en profondeur visuelle

  • Adresse de thèse: https://dl.acm.org/authorize? N660990

Un système de programmation distribué à usage général utilisant des flux de données parallèles aux données

  • Une distribution générale distribuée des données dans les flux parallèles devient un système

  • Adresse de thèse: https://dl.acm.org/authorize? N660991

ACM TOMM Journal Meilleur papier

Apprendre à partir de l'intelligence de la collection: Fonctionnalité Apprentissage USIL Image et Tags

  • Apprendre de l'intelligence collective: utilisez des images sociales et des caractéristiques d'étiquetage

  • Adresse de thèse: https://dl.acm.org/citation.cfm? Id = 2978656

Meilleur papier lecture de texte intégral

ACM MM 2018 Meilleurs articles "Beyond Narrate Description: Génération Poésie à partir d'images par formation multi-adversariens" (au-delà de la description narrative: par le biais de la formation multi-contre-contrat, générant de la poésie à partir d'image) est complétée par l'Université de Kyoto et le Microsoft Institute of Asia. Ce qui suit est le texte intégral de la version chinoise du document fourni par le Microsoft Institute.

Sommaire

La technologie qui génère automatiquement le langage naturel basé sur l'image a attiré une attention généralisée. Dans cet article, nous étudierons plus loin comment générer un langage poétique à partir de l'image et effectuer une création poétique automatique. Ce travail implique un certain nombre de défis, notamment la découverte des indices de poésie dans l'image (par exemple, l'espoir contenu dans le vert), et la génération de poésie - pas uniquement pour satisfaire la corrélation avec l'image, mais aussi répondre à la poésie du niveau de langue . Afin de résoudre les problèmes ci-dessus, nous divisons les travaux de génération de poésie en deux sous-tâches de formation multiples liées à travers des gradients stratégiques, garantissant ainsi cette corrélation croisée et modulaire et le style de langage poétique. Afin d'affiner les indices de la poésie de l'image, nous proposons d'apprendre une intégration poétique visuelle de couplage profond. Parmi eux, la machine peut apprendre la présentation poétique des éléments, des émotions et des scènes de l'image. Cet article présente également deux types de réseaux de jugement qui guident la poésie, y compris le discriminateur multi-modes et le discriminateur de style poétique. Afin de faciliter la recherche, nous avons collecté deux ensembles de données de poésie à travers des annotations artificielles. Ils ont les propriétés suivantes: 1) La première est la paire de données "Image-Poetry" (total 8 292 paires), et 2) à ce jour la plus grande Ensemble de données de citoyenneté de poésie anglaise publique (un total de 92 265 poèmes différents). Nous avons utilisé notre propre modèle pour générer 8 000 images et mené des expériences à grande échelle, dont 1 500 images ont été sélectionnées au hasard pour l'évaluation. L'évaluation objective et l'évaluation subjective montrent que cette méthode génère des méthodes de poésie par rapport à l'image actuellement la plus avancée. Nous avons invité 500 sujets humains à effectuer un test de Turing, dont 30 évaluateurs étaient des professionnels poétiques. Les résultats des tests ont prouvé l'efficacité de notre méthode.

1. Introduction

Récemment, la recherche impliquant la vision et le langage a attiré une large attention. Le nombre de recherches sur les descriptions d'images (comme la technologie du titre d'image et la génération d'images) a montré une croissance explosive. Essence L'étude décrite par la description d'image vise à générer des phrases qui utilisent le langage humain pour décrire les faits basés sur les images. Dans cet article, nous irons plus loin et espérons terminer une uvre plus reconnue: le but de créer de la poésie et de générer un langage poétique selon l'image. Le travail a suscité un grand intérêt pour la communauté de la recherche et l'industrie.

Figure 1: Exemple-description et poésie écrite par les humains à la même image. Nous pouvons voir qu'il existe des différences évidentes de mots dans la même couleur dans ces deux formes. Par rapport aux faits de l'image, la poésie est plus encline à capturer le sens et les symboles de poésie des objets, des scènes et des sentiments de l'image (par exemple, les Cavaliers et le Falcon, la chasse et la consommation, et à la station).

Dans le domaine du traitement du langage naturel, le problème de la génération de poésie a été étudié. Par exemple, au milieu, l'auteur se concentre sur la qualité du style et du rythme. En Chine, ces tâches ont plus de poésie étudiée selon les thèmes. Dans l'industrie, Facebook a proposé l'utilisation de réseaux de neurones pour générer des poèmes de rimes anglais. Microsoft a développé un système appelé "Xiaobing". L'une des fonctions les plus importantes est de générer de la poésie. Cependant, de la fin de la manière de générer de la poésie à partir d'images est encore un nouveau thème, face à d'énormes défis.

L'objectif de la technologie du titre d'image et de la génération d'images est de générer des phrases descriptives sur les images, et la génération du langage poétique est un problème plus difficile. Présentation visuelle et stimulation de l'image et aide à mieux générer des symboles de poésie, plus loin. Par exemple, les "personnes" dans la description de l'image peuvent utiliser davantage le "Sunshine brillant" et le "bras ouvert" pour symboliser "l'espoir", ou utiliser l'arrière-plan de "chaise vide" et "obscurité" pour symboliser la "solitude". Figure 1. Un exemple spécifique montre la différence entre la même image et sa poésie.

Afin de générer de la poésie à partir d'une image, nous devons particulièrement faire face aux trois défis suivants: Premièrement, par rapport à la poésie générateurs selon le thème, il s'agit d'un problème croisé. Une façon intuitive de générer de la poésie à partir d'images consiste à affiner les mots clés ou l'explication du texte de l'image, puis utiliser ces mots clés ou le texte d'explication comme graines pour générer de la poésie, tout comme la génération de poésie à partir du thème. Cependant, les mots clés ou le texte d'explication perdront de nombreuses informations d'image, sans parler des indices de poésie qui sont très importants pour la génération de poésie. Deuxièmement, par rapport à la technologie du titre d'image et à la génération d'images d'essais, la poésie de la génération d'images est un travail plus subjectif, ce qui signifie que la même image peut correspondre à plusieurs poèmes dans différents aspects, et la technologie / l'image du titre d'image génère plus d'essai plus d'essai . Le terrain décrit les faits dans l'image et génère des phrases similaires. Troisièmement, la forme et le style du poème sont différents de la phrase narrative. Dans cette étude, nous sommes principalement préoccupés par une forme ouverte de poésie sans poésie. Bien que nous ne nécessitons pas de rythme, de rythme ou d'autres techniques de poésie traditionnelles, il existe encore une structure poétique et un langage poétique. Dans cette étude, nous définissons cette qualité comme poétique. Par exemple, la longueur de la poésie est généralement limitée; par rapport aux descriptions d'images, la poésie préfère généralement les mots spécifiques; les phrases en poésie doivent être liées au même thème et rester cohérentes.

Afin de faire face aux défis ci-dessus, nous avons collecté deux ensembles de données de poésie annotés par les humains et étudié la création de poésie par une technologie de récupération et de génération intégrées dans un seul système. Afin de mieux étudier les indices de poésie de la génération d'images de la génération de poésie, nous avons d'abord étudié le modèle d'intégration de poésie visuelle de couplage profond en utilisant les caractéristiques de l'image CNN, et l'ensemble de données de poésie multimode contenant des milliers de skip-poésie d'images Caractéristiques vectorielles de pensée dans la collection de poésie. Ensuite, nous avons utilisé ce modèle intégré pour récupérer des poèmes connexes et différents à partir d'une bibliothèque de poésie à modes uniques plus grande (c'est-à-dire "Collection de poésie unique"). Ces images récupérées, ainsi que la collection de poésie multimodulaires, constituent une paire de données d'image agrandie (c'est-à-dire «Collection de poésie multimode (ex)»). Nous proposons également d'utiliser la dernière technologie d'apprentissage de séquences pour former le modèle de génération de poésie final sur les ensembles de données de poésie multi-modes (Ex). Cette architecture garantit que nous pouvons découvrir et façonner un grand nombre d'indices poétiques à partir d'images étendues-poésie-poésie, ce qui est crucial pour la génération de poésie.

Afin d'éviter le problème de l'écart de l'exposition causé par la séquence longue (toutes les lignes de poésie ensemble) et la fonction de perte spécifique insatisfaisante pour évaluer quantitativement le problème de la génération de poésie, nous proposons d'utiliser des poèmes de formation multipliés multiples. Nous utilisons deux réseaux de jugement pour fournir des récompenses pour la corrélation entre la génération de poésie et les images et la poésie données qui génèrent de la poésie. Nous avons expérimenté des poèmes multimodaux, des poèmes à modes uniques et des poèmes multi-modes (Ex), de la poésie générée selon les images, puis évalué la poésie générée de manière automatique et artificielle. Nous définissons les normes d'évaluation automatiques liées à la corrélation, à la nouveauté et à l'interprétation de la cohérence, et effectuons des recherches sur les utilisateurs sur la corrélation, la cohérence et l'imagination pour comparer la poésie générée avec la poésie générée par la méthode de base. Les résultats de cette étude sont les suivants:

  • Nous proposons de générer de la poésie à partir d'images de manière automatique. Pour autant que nous sachions, c'est le premier effort pour essayer de générer un problème de poésie libre en anglais dans le cadre global. Il permet à la machine d'avoir la capacité d'approcher les humains dans le travail cognitif.

  • Nous combinons le modèle intégré poétique visuel à couplage profond avec des générateurs d'apprentissage combinés basés sur RNN. Deux d'entre eux ont fourni des récompenses pour la corrélation et la poésie modulaires croisées grâce à une formation de confrontation multiple.

  • Nous avons collecté le premier ensemble de données d'image-poésie et le plus grand ensemble de données du Corpus de poésie publique. En appliquant des normes d'évaluation automatiques et manuelles (y compris des tests de Turing effectués par plus de 500 sujets humains), un grand nombre d'expériences ont prouvé que notre méthode est plus efficace que plusieurs méthodes de base. Afin de mieux promouvoir la recherche de la poésie de la génération d'images, nous annoncerons ces ensembles de données non loin.

2 travaux connexes

2.1 Génération de poésie

Les méthodes de génération de poésie traditionnelles incluent des modèles et des méthodes basées sur la grammaire, générant une influence sous contraintes et des modèles de traduction automatique statistique. Ces dernières années, grâce à l'apprentissage en profondeur, la recherche sur la technologie de génération de poésie est entrée dans une nouvelle étape. Le réseau neuronal récursif est largement utilisé pour générer de la poésie (il est difficile pour les lecteurs de distinguer si ces poèmes sont générés par des machines ou des poètes créés). Les travaux de génération de poésie précédents se sont principalement concentrés sur le style et le rythme de la poésie, et les recherches récentes ont introduit les thèmes comme condition pour la génération de poésie. Pour un poème, le thème est toujours le concept abstrait sans scène spécifique. De nombreux poèmes sont créés par les poètes dans une scène spécifique et en regardant des paysages spécifiques. Ils sont inspirés par ce fait. Nous avons une étape plus étroite et essayons de résoudre le problème de la génération de poésie de scènes visuelles. Par rapport aux recherches antérieures, notre travail est confronté à plus de défis, en particulier pour tenir compte des problèmes multi-modaux.

2.2 Description de l'image

La technologie du titre d'image a été initialement considérée comme un problème de récupération pour une image donnée pour rechercher la description du texte à partir de l'ensemble de données, il ne peut donc pas fournir des descriptions précises et appropriées pour toutes les images. Afin de résoudre ce problème, quelqu'un propose d'utiliser le remplissage de modèle et le réseau neuronal convolutionnel (CNN) et les paradigmes de réseau neuronal récursif (RNN) pour générer la lisibilité pour atteindre le niveau humain. Récemment, la génération du réseau de confrontation (GAN) est utilisée pour générer du texte explicatif basé sur différents problèmes. Semblable à la technologie du titre d'image, la génération d'images d'essais a un développement similaire. Des recherches récentes sur la génération d'images courts d'essais courts se concentrent principalement sur la détection régionale et la structure hiérarchique de la génération de phrases. Cependant, comme nous en parlons, la phrase descriptive de la technologie du titre d'image et de la génération d'images pour générer une déclaration descriptive des faits d'image est décrite, et le traitement de la génération poétique est une forme de langage de niveau élevé qui nécessite des contraintes de style poétique et de langue.

3 façons

Dans cette étude, notre objectif est de générer de la poésie basée sur des images, de sorte que la poésie générée est liée à l'image d'entrée et répond aux exigences de poétique. À cette fin, nous transformons le problème en un processus d'apprentissage à formation multiples et optimiser davantage le gradient stratégique. Le modèle de génération CNN-RNN est utilisé comme un corps intelligent. Les paramètres du corps intelligent formulent une politique, qui décidera quels mots de cette politique seront sélectionnés comme actions. Lorsque le corps intelligent sélectionne tous les mots d'un poème, il fournit des récompenses. Nous définissons deux types de réseaux de jugement pour déterminer si la poésie générée correspond à l'image d'entrée et si la poésie générée est poétique, et elle fournit des récompenses. Le but de notre modèle de génération de poésie est de générer une série de mots pour une image pour maximiser la récompense finale des attentes. Pour de nombreuses tâches qui ne sont pas en mesure d'utiliser, ce gradient de stratégie s'est avéré extrêmement efficace.

Figure 2: Utilisez une formation de confrontation multiple pour effectuer l'architecture de la poésie. Nous utilisons d'abord l'ensemble de données d'image-poésie (collection de poésie multimode) -Poetry pour (a) pour former des modèles intégrés visuels poétiques à couplage profond (e) dans l'ensemble de données d'image-poésie (collection de poésie multimode). L'analyse des mots (outils NLP à l'Université de Stanford) extrait les symboles de poésie (tels que les éléments, les scènes et les émotions) de la poésie, et les caractéristiques de l'image (b) sont davantage de caractéristiques de poésie obtenues par le CNN de toxicomane fin en utilisant le CNN extrait. Les caractéristiques des phrases de la poésie (d) sont extraites du modèle (c) de saut (c) formé par la plus grande bibliothèque de poésie publique (collection de poésie monomode). Le générateur de déclaration basé sur RNN (F) est formé comme un Smartman. Les deux jugements (l'état multi-modes (g) et le style poétique (h) généré par le jugement basé sur l'image donnée) fournissent des récompenses d'essence Le dispositif d'analyse de mots extrait les mots de la poésie.

Comme le montre la figure 2, l'architecture contient plusieurs parties: (1) le modèle visuel poétique intégré (e) utilisé pour apprendre le couplage profond de la présentation poétique de l'image (E), et (2) l'optimisation de la formation multipliante de l'image de Gradient de stratégie. Les deux réseaux de discrimination (G et H) sont basés sur RNN en tant que corps intelligent pour fournir des récompenses au gradient stratégique.

3.1 Poétique visuel intégré dans un couplage profond

L'objectif du modèle d'intégration de la poésie visuelle est d'apprendre l'espace intégré. Dans cet espace, différents modes (tels que des images et des déclarations) peuvent être la cartographie. Nous utilisons une méthode similaire au problème technique du titre d'image. En supposant qu'une paire d'images et de poésie partageant la même sémantique poétique, ce qui fait que l'espace intégré peut être appris. En intégrant le même espace de caractéristique de l'image et de la poésie, nous pouvons calculer directement la corrélation entre eux à l'aide d'un poème et d'un vecteur de poésie présenté par une image. De plus, nous pouvons utiliser davantage les caractéristiques intégrées pour initialiser l'optimisation des indices de poésie dans la génération de poésie.

Notre architecture de modèle poétique visuelle profondément couplée est représentée dans la partie gauche de la figure 2. Pour l'apport d'images, après avoir recherché les facteurs importants de la poésie de la génération d'images, nous utilisons des réseaux de neurones convolutionnels profonds (CNN) - les trois aspects de l'indice de la poésie importante dans le réseau et la scène d'image symbolique (V2) sont liés à l'émotion (V3) . Nous observons que les concepts de la poésie sont généralement imaginés et poétiques, et le concept de la concentration de données de classification des modèles CNN est spécifique et ordinaire. Les différences sémantiques entre l'expression visuelle et l'expression du texte de la poésie, nous avons proposé l'utilisation de la poésie multi-modes Ensembles de données sur les fins fines ces réseaux. Nous choisissons des mots clés couramment utilisés liés aux éléments, aux émotions et aux scènes de la poésie basées sur des ensembles de données de poésie modale, trois autres ensembles de données d'étiquette ont été établis pour la détection des éléments, des émotions et des scènes. Après le L'ensemble de données multi-élaborations a été terminé, nous avons raffiné les modèles CNN pré-formés dans trois ensembles de données. Dimensionnaire dans tous les aspects de l'avant-dernière couche de connexion du modèle CNN, et a obtenu la série Nd n-dimensionnal nd (n = d × 3) vector Vector V (v Rn) pour entrer l'entrée de chaque image visuelle poétique intégrée:

Parmi eux, nous utilisons les caractéristiques de la couche de connexion complète comme caractéristiques de v1, v2, v3. Le vecteur de sortie x de la poésie visuelle intégrée x est le vecteur de dimel k, qui représente la caractéristique de l'image de la caractéristique caractéristique de l'image: mappage linéaire:

Parmi eux, wvkrkxn est une matrice intégrée d'image, et bvRK est le vecteur de déviation d'image. Dans le même temps, le vecteur d'expression de la poésie est calculé sur la base de la valeur moyenne de la pensée à sauter dans l'instruction POEM. Nous utilisons la combinaison de skip avec le vecteur de dimension m (enregistré comme tRM), car il montre une meilleure performance comme illustré. Le modèle à baisse de saut est formé dans un ensemble de données de poésie unique. Semblable aux images intégrées, l'intégration de la poésie est exprimée comme suit:

Parmi eux, WTKRKXM indique que la poésie est intégrée dans la matrice, et BTRK représente le vecteur de déviation poétique. Enfin, l'utilisation de points de similitude pour minimiser la perte de tri de chaque paire, intégrant ainsi l'image et la poésie:

Parmi eux, MK est une poésie de recherche comparative (non pertinente, pas à droite) pour l'intégration d'images X, et XK est le contraire. représente les marges de comparaison. Par conséquent, notre modèle d'entraînement produira une similitude de chaîne plus élevée que la génération de manière aléatoire d'une chaîne plus élevée (similaire au point) entre les caractéristiques soutenues de la paire d'image d'image d'origine.

3.2 Générateur de poésie comme corps intelligent

Le modèle traditionnel CNN-RNN de la technologie du titre d'image est utilisé dans notre méthode comme intelligent. Nous n'avons pas utilisé la méthode hiérarchique utilisée pour générer plusieurs instructions dans l'essai récent de la génération d'images. Au lieu de cela, nous avons utilisé le modèle récursif non -tip en utilisant la phrase se terminant comme mot dans le vocabulaire. La raison en est que par rapport aux paragraphes, la poésie contient moins de mots. De plus, la cohérence du niveau entre les phrases de la poésie de formation est plus faible, ce qui rend difficile l'apprentissage entre les niveaux entre les mots. Nous utilisons également le modèle de langage récursif comme référence pour les expériences, et nous montrerons les résultats dans la section expérimentale.

Les modèles générés incluent le codeur d'image CNNNS et le décodeur de poésie RNN. Dans cette étude, nous utilisons des unités de boucle de contrôle de porte comme décodeurs. Nous utilisons les fonctionnalités intégrées d'image obtenues par les modèles intégrés de poésie visuelle dans le couplage en profondeur de la section 3.1 comme codeur d'entrée d'image. Supposons que soit le paramètre du modèle. Traditionnellement, notre objectif est d'apprendre en maximisant les similitudes de la phrase d'observation y1: tY * (où t est la longueur maximale des phrases de génération (y compris la fin de l'énoncé représentatif et la fin de la déclaration représentative), y * * représente tous les espaces de séquence sélectionnés).

L'ordre r (y1: t) représente la récompense lorsque le temps t, et r (y1: t) est une récompense cumulative, c'est-à-dire r (yk: t) =

Essence Tous les mots précédents y1: (t-1), de sorte que p (yt | y1: (t-1)) est la probabilité de condition de paramètre de yt lorsque le temps T. P est la fonction de paramètre de la politique . Chaque lot de récompenses de gradient stratégique peut être calculée comme la somme de toutes les séquences d'action efficaces comme les récompenses futures prévues. Il itère toutes les séquences d'action possibles est une croissance de l'indice, mais nous pouvons l'écrire dans les attentes. De cette façon, nous pouvons utiliser une mesure d'estimation impartiale pour l'approximative:

Nous maximions j () en suivant son gradient:

En pratique, le gradient d'attente peut être approximativement utilisé pour utiliser un échantillon de Monte Carlo. La méthode d'utilisation est la suivante: chaque YT est échantillonné du modèle distribué dans le modèle ... Comme décrit, la ligne de base B peut être introduite pour réduire le variance de l'estimation du gradient sans modifier le gradient attendu. Par conséquent, le gradient attendu d'un seul échantillon est approximativement égal ::

3.3 Le discriminateur comme récompense

Une bonne image de poésie doit respecter au moins deux normes: poésie (1) liée aux images, et (2) en termes de longueur appropriée, de style de langage poétique et de cohérence poétique. Sur la base de ces deux exigences, nous avons proposé deux réseaux discriminatoires pour guider la génération de la poésie: le jugement multimodaliste et le discriminateur de style poétique. Il a été prouvé que le réseau de jugement profond a une grande efficacité dans les tâches de classification du texte, en particulier pour les tâches qui ne peuvent pas établir une bonne fonction de perte. Dans cet article, les deux discriminateurs que nous avons proposés ont plusieurs catégories, dont une classe positive et multiple négative.

Discriminateur multi-modes: Afin de vérifier si la poésie générée Y correspond à l'image d'entrée X, nous formons le discriminateur multi-modal (DM) pour classer (x, y) en trois catégories de correspondance, et non de correspondance et de génération. Essence DM comprend un codeur multimodal, une couche de fusion modale et un classificateur avec une fonction softmax:

Parmi eux, WX, BX, WC, BC, WM, BM sont des paramètres à apprendre. sont des multiplications de niveau d'éléments, tandis que CM représente la probabilité de trois types de discriminateur multi-modes. Nous utilisons l'encodeur de déclaration basé sur GRU pour mener une formation discriminatrice. La formule 11 fournit la méthode de probabilité de génération (classification x, y à chaque type, et en utilisant cm (c | x, y) à). Parmi eux, c {correspondant, non correspondant et généré}.

Discriminateur de style de poésie. Contrairement à la plupart de la génération poétique de la poésie, du rythme, du rythme, du rythme, du rythme, du rythme, du rythme, du rythme et d'autres technologies de poésie traditionnelles, nous sommes préoccupés par une forme ouverte de poésie sans poésie. Cependant, comme décrit dans la section 1, la poésie que nous nous demandons a des caractéristiques poétiques. Nous n'avons pas désigné de modèles ou de règles spécifiques pour la poésie, mais nous avons proposé le discriminateur de style poétique (DP) pour guider la poésie générée dans le sens de la poésie créée par les humains. Dans DP, la poésie générée sera divisée en quatre catégories: poétique, désordonnée, paragraphe et génération.

Poétique est un exemple positif de normes poétiques. Les trois autres catégories sont considérées comme des exemples négatifs. La classe désordonnée concerne la structure interne et la cohérence entre les versets, tandis que la classe de paragraphe utilise des phrases de paragraphe et est considérée comme un exemple négatif. Dans DP, nous utilisons l'ensemble des poèmes à modes uniques comme exemple poétique positif. Afin de construire une catégorie désordonnée, nous avons d'abord établi un pool de poèmes à travers tous les poèmes dans la concentration de poèmes uniques-modaux. Nous sélectionnons au hasard un nombre raisonnable de poèmes dans le pool de piscine pour re -former la poésie comme exemple de classe désordonnée. L'ensemble de données paragraphe fourni est utilisé comme exemple de paragraphe.

Générez complètement la poésie y pour être codé par GRU, analysez-la dans la couche de connexion complète, puis utilisez la fonction Softmax pour calculer la probabilité d'être classé en quatre types. La formule de ce processus est la suivante:

Cp = softmax (wp gru (y) + bp), (12)

Parmi eux, , WP et BP sont des paramètres à apprendre. La probabilité de génération de la poésie est classée à la catégorie C. CP (c | y) peut être calculée, où c {poétique, désordonné, paragraphe et généré}.

Fonction de récompense. Nous définissons la fonction de récompense du gradient stratégique comme la poésie générée Y (générée en fonction de l'image d'entrée x) à la catégorie avant (catégorie de jugement multi-modes DM et discriminateur de style poésie DP Poétique Catégorie)., Puis pondéré le paramètre pondéré paramètre pondéré :

R (y | ) = cm (c = apparié | x, y) + (1 -) cp (c = poétique | y). (13)

3.4 Formation multi-confrontation

Avant la formation de confrontation, nous avons utilisé la technologie de génération de titre d'image pour mener des générateurs de pré-formation, offrant une meilleure initialisation de stratégie pour le générateur. Le générateur et le discriminateur sont renouvelés par confrontation. Le but du générateur est de générer de la poésie qui répond aux normes, afin que les deux jugeurs obtiennent des récompenses plus élevées. De cette façon, lorsqu'ils trompent le juge, le dispositif de jugement peut être formé pour apprendre à distinguer la poésie générée et la poésie et la poésie correspondantes . Poésie. Comme mentionné ci-dessus, la poésie générée est utilisée comme probabilité de la catégorie positive comme récompense du gradient stratégique.

Nous utilisons des exemples positifs à partir de données réelles (correspondants de poèmes en DM et de poésie poétique en DP), ainsi que des exemples négatifs de la poésie générateurs de générateurs et d'autres données réelles (déballage des poèmes dans DM et des paragraphes dans DP Train plusieurs discriminateurs (deux dans cet article ). Dans le même temps, en utilisant le gradient stratégique et l'échantillonnage de Monte Carlo, le générateur met à jour les récompenses attendues fournies par une variété de jugeurs. Depuis que nous avons deux discriminateurs, nous avons utilisé plusieurs contre-formation pour former deux jugeurs en même temps.

Tableau 1: Détails de trois ensembles de données. Les deux premiers ensembles de données sont collectés par nous-mêmes, et le troisième est élargi via VPE.

4 expériences

4.1 Ensemble de données

Ensemble de données de poésie modèle (collection de poésie à mode unique). Nous avons utilisé le modèle intégré que nous avons formé pour étendre la paire d'images et de poésie en ajoutant trois voisins des voisins de la bibliothèque de poésie non redondante.

Tableau 1: Détails de trois ensembles de données. Les deux premiers ensembles de données sont collectés par nous-mêmes, et le troisième est élargi via VPE. Et construire une paire de poésie d'image étendue, appelée collection de poésie multimode (ex). Les détails de ces ensembles de données sont présentés dans le tableau 1. Pour des exemples des deux ensembles de données collectés, voir la figure 3. Afin de mieux promouvoir la recherche de la poésie de la génération d'images, nous annoncerons ces ensembles de données non loin.

Pour les ensembles de données de poésie multimode, nous avons d'abord grimpé quelques groupes sur Flickr (ces groupes ont essayé de faire correspondre les illustrations pour l'homme avec des illustrations) 34 847 paires de paires d'images-poésie. Ensuite, nous avons invité cinq évaluations humaines de la littérature anglaise pour évaluer si ces poèmes étaient liés aux images. Les critères de jugement étaient: grâce à une considération complète des éléments, des sentiments et des scènes pour déterminer si l'image pouvait stimuler avec précision le même groupe de poésie. Nous filtrons la paire d'image-poésie qui n'est pas liée à l'image non liée et conserve les 8 292 paires restantes pour former un ensemble de données de poésie multimodal.

Les poèmes monomode sont rampants à partir de plusieurs sites Web de poésie en ligne publics, tels que Poetry Foundation, PoetrySoup, Best-poem.net et Poets.org. Afin d'obtenir une formation sur modèle suffisante, nous avons préparé la poésie pour filtrer la poésie avec trop de lignes (plus de 10 lignes) ou trop peu (moins de 3 lignes). Nous avons également supprimé des poèmes, notamment des mots étranges, une langue autre que l'anglais et des poèmes répétés.

4.2 Méthode de comparaison

Afin d'étudier l'efficacité de la méthode proposée, nous avons comparé différents paramètres avec les quatre méthodes de base. Nous avons choisi le modèle d'identification d'affichage et SEQGAN car ils sont les derniers résultats de recherche de la technologie du titre d'image. Nous avons choisi une image comparative pour générer un court modèle d'essai car il a une forte capacité à imiter une variété de contenu d'image. Veuillez noter que toutes les méthodes utilisent un ensemble de poésie multi-modes (Ex) comme ensemble de données de formation et peuvent générer une poésie multi-lignes. Des méthodes et des paramètres d'expérience spécifiques sont présentés ci-dessous:

Display-différentiel (1CNN): Utilisez uniquement l'article CNN et entraînez le modèle CNN-RNN via le VGG-16.

Identification d'affichage (3CNN): Utilisez trois fonctionnalités CNN pour former le modèle CNN-RNN via le VGG-16.

SEQGAN: Utilisez un discriminateur (le discriminateur utilisé pour distinguer la poésie générée et la poésie créée par la vie réelle) pour optimiser le modèle CNN-RNN.

Hiérarchie régionale: La segmentation des calques de la base génère un modèle. Afin de mieux être cohérent avec la distribution de la poésie, nous limitons le nombre maximum de lignes dans l'expérience à 10 lignes, et le nombre maximum de mots par ligne est limité à 10.

Notre modèle: Afin de prouver l'efficacité des deux discriminateurs, nous formons nos modèles dans les quatre arrière-plans (en utilisant les images GAn, I2P-GAN à la poésie): Modèle de pré-formation sans dispositif de jugement (I2P-GAN W / S Device Device ), le modèle de formation (I2P-Gan avec DM) uniquement du discriminateur multimodal, modèle de formation (I2P-Gan avec DP) avec un discriminateur de style poétique (I2P-GAN W / DP) et deux modèles de formation de discriminateurs (I2P - Gan).

4.3 Norme d'évaluation automatique

L'évaluation de la poésie est généralement une tâche difficile. Il n'y a pas de norme d'évaluation établie dans la recherche existante. C'est encore plus pour générer une nouvelle tâche de génération de poésie. Afin de mieux évaluer la qualité de la poésie, nous proposons d'utiliser des méthodes automatiques et artificielles pour évaluer en même temps.

Pour l'évaluation automatique, nous vous recommandons d'utiliser trois normes d'évaluation, telles que BLEU, la nouveauté et la corrélation. Après standardisation, calculez le score total en fonction de trois normes.

Bleu. Nous utilisons d'abord l'outil auxiliaire de la qualité de la traduction mutuelle bilingue (BLEU) pour vérifier à quel point les poèmes sont générés par l'évaluation basée sur le score. Comme la technologie du titre d'image et la génération d'images d'essais courts sont généralement effectués. Il est également utilisé dans une autre recherche de génération de poésie. Pour chaque image, nous n'utilisons que les poèmes créés par des êtres humains comme une vraie poésie.

Nouveauté. En introduisant le discriminateur DP, le générateur doit introduire des mots ou des phrases à partir d'un ensemble de données de poésie en mode unique et générer des mots ou des phrases qui ne sont pas communs dans la poésie multimodale (Ex). Nous utilisons la nouveauté de proposé pour calculer les mots ou phrases à faible fréquence observés dans la poésie. Nous étudions les deux normes N-Gram de la nouveauté-2 et du roman-3 (par exemple, les deux modèles et les moules ternaires). Nous trierons d'abord le N-gram de l'ensemble de données de formation de poésie multimode de poésie (ex) et utilisons les 2000 premiers comme fréquence élevée. La nouveauté est calculée sur la base du rapport N-grammes de l'ensemble de données d'entraînement (à l'exception des grammes N haute fréquence dans la poésie générée).

Corrélation. Différent de la recherche sur la génération de poésie sans contraintes ni contraintes, dans cette étude, nous générerons la corrélation entre la poésie et les images données comme un critère important. La génération de texte de description est plus préoccupée par la description factuelle des images. Différentes, la poésie différente peut être liée à la même image à différents aspects. Par conséquent, nous n'avons pas calculé la corrélation entre la génération de poésie et la poésie réelle. Nous utilisons le modèle intégré de poésie visuelle en profondeur que nous avons appris pour déterminer la corrélation entre la poésie et les images. Une fois l'image et la poésie mappées dans le même espace via notre modèle intégré, nous utilisons la résidus de la chaîne pour mesurer leur corrélation. Bien que notre modèle intégré puisse approximer la corrélation entre les images et la poésie, nous utilisons toujours une évaluation subjective pour mieux étudier l'efficacité de notre poésie au niveau humain.

globalement. Nous calculons le score total en fonction des trois normes ci-dessus. Pour chaque valeur de toutes les valeurs d'une norme A, nous utilisons d'abord les méthodes suivantes pour revenir à la première méthode:

Ensuite, nous obtenons la valeur moyenne de Bleu (par exemple, Bleu-1, Bleu-2 et Bleu-3) et la nouveauté (par exemple, Novel-2 et Novel-3). Nous calculons le score final par la valeur moyenne de la normalisation pour assurer la contribution égale des différentes normes.

Cependant, dans une tâche aussi ouverte, il n'y a pas de norme particulièrement appropriée qui peut parfaitement évaluer la qualité de la poésie générée. Les normes automatiques que nous utilisons peuvent être considérées dans une certaine mesure. Afin de mieux expliquer la qualité de la poésie du point de vue de la perception humaine, nous avons également effectué la recherche sur les utilisateurs d'expansion suivante.

4.4 Évaluation humaine

Nous avons effectué des évaluations humaines dans les robots de dinde amazonienne. Nous allons trois tâches aux travailleurs AMT de la manière suivante:

Tâche 1: Étudiez l'efficacité de notre modèle intégré à la poésie visuelle à couplage profond. L'annotation est nécessaire pour marquer 0 à 10 points basée sur les similitudes de contenu, d'émotions et de scènes basées sur un poème et une image donnée.

Tâche 2: Le but de cette tâche est de comparer la poésie générée selon une image, différentes méthodes (quatre méthodes de base et nos quatre paramètres de modèle) dans chaque aspect. Nous donnons une image, obligeant l'annotation à marquer 0-10 points sur la poésie selon quatre normes: la corrélation (avec des images), la cohérente (si les lignes de poésie sont cohérentes), l'imagination L'image montre à quel point l'imagination et la créativité) et l'impression globale .

Tâche 3: Nous demandons à l'annotation d'identifier le test de Turing dans la création humaine mixte et la poésie générée par la machine. Veuillez noter que le test Turing est effectué dans deux paramètres, c'est-à-dire la poésie avec des images et des poèmes sans image.

Nous avons sélectionné au hasard 1 000 images pour chaque tâche et alloué à trois évaluateurs. Parce que la poésie est une forme littéraire, nous avons également invité 30 commentaires liés à la littérature anglaise (dix en tant que langue maternelle) en tant qu'utilisateurs experts pour effectuer un test de Turing.

4.5 Détails de la formation

Dans les modèles intégrés de poésie visuelle en profondeur, nous utilisons des caractéristiques D = 4 096 dimension pour chaque CNN. Nous nous sommes entraînés à partir d'imageNet pour extraire les caractéristiques des objets du VGG-16 formé pour extraire les caractéristiques de la scène du modèle Place205-VGGNET et extraire les caractéristiques émotionnelles des modèles émotionnels.

Afin de mieux extraire les caractéristiques visuelles du symbole de la poésie, nous avons d'abord obtenu le nom, les verbes et les adjectifs des données de poésie à modes uniques au moins cinq fréquences. Ensuite, nous avons sélectionné des adjectifs et des verbes pour les émotions (y compris 328 balises), et sélectionnez des noms pour les éléments (y compris 604 étiquettes) et des scènes (y compris 125 balises). Quant aux caractéristiques de la poésie, nous utilisons M = 2 048-dimension (dont chaque segment de dimension à 1024 représente unidirectionnel et bidirectionnel) pour extraire le vecteur de berce . Le marginal est fixé à 0,2 sur la base des expériences empiriques dans le marginal. Nous avons sélectionné au hasard 127 poèmes pour une image comme ne correspondant pas à la poésie, et les avons utilisées comme poésie de comparaison (MK et XK dans l'équation 5), et les avons échantillonnées dans chaque numéro. Nous avons des observations comparables par une évaluation automatique du résultat de 0,1 à 0,9, et les paramètres pondérés A sont définis sur A = 0,8 sur la base de preuves empiriques.

4.6 Évaluation

Figure 4: Six méthodes sont utilisées pour générer des exemples de poésie basés sur une seule image.

Rechercher la poésie. Nous les comparons en fonction de la corrélation entre trois poèmes et des images: la vraie poésie, utilisez la recherche VPE, les fonctionnalités d'image non qualifiées (VPE avec un ft) et en utilisant la recherche VPE. Les caractéristiques graphiques ont été bien étirées. W / FT). Le tableau 2 montre la comparaison de ces trois types de poésie en 0-10 points (0 points représentent non liés, 10 points représentent le plus lié). Nous pouvons voir qu'en utilisant le modèle intégré à poésie visuelle proposée, les scores de corrélation de la récupération de la poésie peuvent atteindre le score moyen (c'est-à-dire 5 points). L'utilisation de la poésie symbolisant les caractéristiques de l'image finale peut améliorer considérablement la corrélation.

Tableau 2: Le score moyen des trois types de poésie et d'images créés par les humains, avec un score de 0 à 10 points (0 point non lié, 10 points). Une analyse de variance d'une voie montre que l'évaluation de ces poèmes est statistiquement significative (F (2, 9) = 130,58, P

3CNNCNNCNNCNN-RNNSeqGANVPEVPEI2P-GAN w/ DmBLEUn-gramsDpI2P-GAN w/ DmDpI2P-GANBLEU

445

5 I2P-GAN

3BLEU 14 %

4RelCol Imag 0-10 0-10-

5/ ATM

AMT54810.91515206005AMT

5. Conclusion

RNN-

références

T.-H. Chen, Y.-H. Liao, C.-Y. Chuang, W.-T. Hsu, J. Fu, M. Sun..ICCV, 2017.

X. Chen C. Lawrence Zitnick..In CVPR, 2422-2431, 2015.

J. Chung, C. Gulcehre, K. Cho, Y. Bengio..NIPS, 2014.

H. Fang, S. Gupta, F. Iandola, R. K. Srivastava, L. Deng, P. Dollar, J. Gao, X. He, M.Mitchell, J. C. Platt,..In CVPR, 1473-1482, 2015.

A. Farhadi, M. Hejrati, M. A. Sadeghi, P. Young,Rashtchian, J. Hockenmaier, D. Forsyth..In CVPR,15-29, 2010.

A. Frome, G. S. Corrado, J. Shlens, S. Bengio, J. Dean, T. Mikolov,..In NIPS, 2121-2129, 2013.

M. Ghazvininejad, X. Shi, Y. Choi, K. Knight..In NIPS, 1183,1191,2016.

M. Ghazvininejad, X. Shi, J. Priyadarshi, K. Knight.Hafez.ACL, 4348, 2017.

I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu,Warde-Farley, S. Ozair, A. Courville,Y. Ben- gio..In NIPS, 2672-2680, 2014.

J. He, M. Zhou, L. Jiang..In AAAI,2012.

J. Hopkins D. Kiela..In ACL, 1, 168-178,2017.

L. Jiang M. Zhou..In COLING, 377-384, 2008.

A. Karpathy, A. Joulin, F. F. F. Li..In NIPS, 1889-1897, 2014.

R. Kiros, R. Salakhutdinov, R. S. Zemel..arXiv preprint arXiv:1411.2539, 2014.

R. Kiros, Y. Zhu, R. R. Salakhutdinov, R. Zemel, R. Urtasun, A. Torralba, S.Fidler.Skip-thought.In NIPS, 3294-3302, 2015.

J. Krause, J. Johnson, R. Krishna, L. Fei-Fei..CVPR, 2017.

G. Kulkarni, V. Premraj, S. Dhar, S. Li, Y. Choi, A. C. Berg, T. L. Berg..In CVPR, 2011.

Y. Liu, J. Fu, T. Mei, C. W. Chen..In AAAI, 2017.

H. M. Manurung.. 15-19, 1999.

H. Oliveira..Universidade de Coimbra, 2009.

H. G. Oliveira.Poetryme: . , 1:21, 2012.

K. Papineni, S. Roukos, T. Ward et W.-J. Zhu.Bleu: A Method of Automatic Evaluation of Machine Translation .Inals, pp. 311-318, 2002.

C. C. Park et G. Kim. Utilisez une série de phrases naturelles pour exprimer un flux d'images .in Nips, pp. 73-81, 2015.

S. J. Rennie, E. Marchert, Y. Mroueh, J. Ross et V. Goel. Formation de séquence auto-critique. ArxivPrprint Arxiv: 1612.00563, 2016.

O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A.Khosla, M. Bernstein, etc. .ijcv, 115 (3): 211-252 2015.

K. Simonyan et A. Zisserman. Davidment de la reconnaissance de reconnaissance d'image à grande échelle Réseaux de neurones. Arxiv Preprint Arxiv: 1409.1556, 2014.

O. Vinyals, A. Toshev, S. Bengio et D. Erhan. Show and Distinguish: a Nerve Image Text explique le générateur .in CVPR, pp. 3156-3164, 2015.

J. Wang, J. Fu, Y. Xu et T. Mei. Reconnaissance des articles super éloignés: Utilisez des adjectifs à couplage profond et un réseau de noms de réseau d'analyse émotionnelle visuelle .in Ij-Cai, pages 3484-3490, 2016.

L. Wang, S. Guo, W. Huang et Y. Qiao. La scène est autre modèle 205-vgnet. Arxiv Preprint Arxiv: 1508.01667, 2015.

R. J. Williams. Algorithme de suivi statistique simple pour connecter l'apprentissage amélioré. Machine Learning, 8 (3-4): 229-256, 1992.

Z. Xu, B. Liu, B. Wang, S. Chengjie, X. Wang, Z. Wang et C. Qi. Puis, alors, alors

R. Yan, H. Jiang, M. Lapata, S.-D. Lin, X. Lv et X. Li. I, Poésie: Création automatique de la poésie chinoise en générant un cadre inductif par optimisation. P. 2203, 2013 .

X. Yi, R. Li et M. Sun. Utilisez le codeur RNN-Deccoder pour générer une poésie classique chinoise. Linguistique informatique chinoise et traitement du langage naturel basé sur les mégadonnées naturellement étiquetées, pages 211-223.Springer, 2017.

Q. Vous, H. Jin, Z. Wang, C. Fang et J. Luo. Utilisation de la technologie de titre d'image sémantique .in CVPR, pp. 4651-4659, 2016.

L. Yu, W. Zhang, J

W. Zaremba et I. SUTSKEVER. Renforcer la machine Turing de l'Écriture des Écritures -Amendement. Arxiv Preprint Arxiv.1505.00521, 2015.

X. Zhang et M. Lapata. Utiliser un réseau de neurones récursivement pour générer de la poésie chinoise .in EMNLP, pp. 670-680, 2014.

Adresse de thèse: https://dl.acm.org/authorize? N660819

Rapport d'examen de la technologie Leifeng.com AI

États-Unis à aucun ami! Treizième ouverture Jeux nationale des étudiants
Précédent
Avec jeu de filtres à café suspendu aigle, tout un hiver ne peut pas sortir!
Prochain
roman préféré Mars « plus que la triste histoire triste », communiqué blanc jour!
Roi de gloire: belle petite sur à la demande, pas de raisons de sourire
11 études ont été disciplinés, l'Université de Tsinghua, la raison est pas qui
Pour être lorsque le « Meilleur » Plein écran: charme couleur bleu E3 Dan diagramme machine véritable tour
Apple pour recruter un ingénieur à temps plein à l'Université chinoise de Siri, Facebook a été condamné à une amende de 640000 $ Royaume-Uni, Amazon chiffre d'affaires du 3ème trimestre a augmenté de
Millet produit a été ajouté à notre réseau entier le plus jeans sur les coûts est non seulement l'un de 99 yuans
« Human-comédie » exposée OST MV, fait chacun vous vous efforcez de la médiocrité
Roi de gloire: la vitesse de 20 secondes était d'or Raiders, ma mère n'ont plus à vous soucier de mes pièces il!
Plein écran polyvalent: Blue Charm E3 évaluation détaillée
CNCC 2018 Technology Une exposition sans précédent, près de 100 entreprises a réuni
Guo Tao admettre thème Mystère « favori » premier film « jeu Appétit » est sur le point de brûler les grèves du cerveau
Et un SUV urbain plus pointu et plus agressif que le nouveau Lexus NX ?