ACM MM meilleur papier

Leifeng.com AI Technology Review: La meilleure conf�rence acad�mique dans le domaine du traitement multim�dia de l'information ACM MM 2018 (conf�rence internationale ACM sur le multim�dia) a eu lieu � S�oul, en Cor�e du Sud du 22 octobre au 26 octobre 2018.

Au total, 757 articles ont �t� soumis lors de cette conf�rence, recevant 209 articles, avec un taux de r�ception de 27,61%; dont 64 documents de rapport oral, une proportion de 8,45%. Les domaines les plus soumis sont la �compr�hension-multitim�dia et la vision�, �compr�hension du traitement multim�dia d'apprentissage en profondeur�, �analyse et description de la compr�hension-multimodale�, �recherche et recommandation interactives et multitimedia�, le nombre de soumissions est respectivement de 210, 167, respectivement, respectivement Articles, 86 articles, 79 articles.

Liste des articles priv�s

Dans l'apr�s-midi du 24 octobre, la liste des prix de la meilleure th�se a �t� annonc�e lors de la conf�rence.

Meilleurs papiers

Au-del� du r�cit Description: G�n�ration Po�sie � partir d'images par formation multi-adversariens

Au-del� de la description narrative: par tradition multi-vendeurs, g�n�rez de la po�sie � partir d'images
Adresse de th�se: https://dl.acm.org/authorize? N660819
Voir le texte int�gral en chinois dans le journal ci-dessous

Meilleur article d'�tudiant

Comprendre les bourdonnements dans des sc�nes bond�es: un apprentissage controvers� et une nouvelle r�f�rence pour l'analyse multi-humaine

Comprendre les gens dans des sc�nes denses: apprentissage de confrontation profond�ment int�gr� et une nouvelle r�f�rence d'analyse multisers
Adresse de th�se: https://dl.acm.org/authorize? N660810

Deux meilleurs documents de d�monstration

Anidance: le mouvement de la danse en temps r�el synth�tiser � la chanson

Anidance: g�n�rer de la musique � partir du temps r�el � partir de l'action de danse
Adresse de th�se: https://dl.acm.org/authorize? N660964

Rencontrez AR-Bot: Rencontre n'importe o�, � tout moment avec un robot AR spatial mobile

Venez voir AR-Bot: Rencontrez des robots AR qui peuvent se d�placer dans diff�rents espaces, � tout moment, n'importe o�
Adresse de th�se: https://dl.acm.org/authorize? N660976

Meilleurs papiers de comp�tition de logiciels open source avec deux articles

Vif: environnement virtuel pour l'apprentissage en profondeur visuelle

Vif: environnement virtuel pour l'apprentissage en profondeur visuelle
Adresse de th�se: https://dl.acm.org/authorize? N660990

Un syst�me de programmation distribu� � usage g�n�ral utilisant des flux de donn�es parall�les aux donn�es

Une distribution g�n�rale distribu�e des donn�es dans les flux parall�les devient un syst�me
Adresse de th�se: https://dl.acm.org/authorize? N660991

ACM TOMM Journal Meilleur papier

Apprendre � partir de l'intelligence de la collection: Fonctionnalit� Apprentissage USIL Image et Tags

Apprendre de l'intelligence collective: utilisez des images sociales et des caract�ristiques d'�tiquetage
Adresse de th�se: https://dl.acm.org/citation.cfm? Id = 2978656

Meilleur papier lecture de texte int�gral

ACM MM 2018 Meilleurs articles "Beyond Narrate Description: G�n�ration Po�sie � partir d'images par formation multi-adversariens" (au-del� de la description narrative: par le biais de la formation multi-contre-contrat, g�n�rant de la po�sie � partir d'image) est compl�t�e par l'Universit� de Kyoto et le Microsoft Institute of Asia. Ce qui suit est le texte int�gral de la version chinoise du document fourni par le Microsoft Institute.

Sommaire

La technologie qui g�n�re automatiquement le langage naturel bas� sur l'image a attir� une attention g�n�ralis�e. Dans cet article, nous �tudierons plus loin comment g�n�rer un langage po�tique � partir de l'image et effectuer une cr�ation po�tique automatique. Ce travail implique un certain nombre de d�fis, notamment la d�couverte des indices de po�sie dans l'image (par exemple, l'espoir contenu dans le vert), et la g�n�ration de po�sie - pas uniquement pour satisfaire la corr�lation avec l'image, mais aussi r�pondre � la po�sie du niveau de langue . Afin de r�soudre les probl�mes ci-dessus, nous divisons les travaux de g�n�ration de po�sie en deux sous-t�ches de formation multiples li�es � travers des gradients strat�giques, garantissant ainsi cette corr�lation crois�e et modulaire et le style de langage po�tique. Afin d'affiner les indices de la po�sie de l'image, nous proposons d'apprendre une int�gration po�tique visuelle de couplage profond. Parmi eux, la machine peut apprendre la pr�sentation po�tique des �l�ments, des �motions et des sc�nes de l'image. Cet article pr�sente �galement deux types de r�seaux de jugement qui guident la po�sie, y compris le discriminateur multi-modes et le discriminateur de style po�tique. Afin de faciliter la recherche, nous avons collect� deux ensembles de donn�es de po�sie � travers des annotations artificielles. Ils ont les propri�t�s suivantes: 1) La premi�re est la paire de donn�es "Image-Poetry" (total 8 292 paires), et 2) � ce jour la plus grande Ensemble de donn�es de citoyennet� de po�sie anglaise publique (un total de 92 265 po�mes diff�rents). Nous avons utilis� notre propre mod�le pour g�n�rer 8 000 images et men� des exp�riences � grande �chelle, dont 1 500 images ont �t� s�lectionn�es au hasard pour l'�valuation. L'�valuation objective et l'�valuation subjective montrent que cette m�thode g�n�re des m�thodes de po�sie par rapport � l'image actuellement la plus avanc�e. Nous avons invit� 500 sujets humains � effectuer un test de Turing, dont 30 �valuateurs �taient des professionnels po�tiques. Les r�sultats des tests ont prouv� l'efficacit� de notre m�thode.

1. Introduction

R�cemment, la recherche impliquant la vision et le langage a attir� une large attention. Le nombre de recherches sur les descriptions d'images (comme la technologie du titre d'image et la g�n�ration d'images) a montr� une croissance explosive. Essence L'�tude d�crite par la description d'image vise � g�n�rer des phrases qui utilisent le langage humain pour d�crire les faits bas�s sur les images. Dans cet article, nous irons plus loin et esp�rons terminer une uvre plus reconnue: le but de cr�er de la po�sie et de g�n�rer un langage po�tique selon l'image. Le travail a suscit� un grand int�r�t pour la communaut� de la recherche et l'industrie.

Figure 1: Exemple-description et po�sie �crite par les humains � la m�me image. Nous pouvons voir qu'il existe des diff�rences �videntes de mots dans la m�me couleur dans ces deux formes. Par rapport aux faits de l'image, la po�sie est plus encline � capturer le sens et les symboles de po�sie des objets, des sc�nes et des sentiments de l'image (par exemple, les Cavaliers et le Falcon, la chasse et la consommation, et � la station).

Dans le domaine du traitement du langage naturel, le probl�me de la g�n�ration de po�sie a �t� �tudi�. Par exemple, au milieu, l'auteur se concentre sur la qualit� du style et du rythme. En Chine, ces t�ches ont plus de po�sie �tudi�e selon les th�mes. Dans l'industrie, Facebook a propos� l'utilisation de r�seaux de neurones pour g�n�rer des po�mes de rimes anglais. Microsoft a d�velopp� un syst�me appel� "Xiaobing". L'une des fonctions les plus importantes est de g�n�rer de la po�sie. Cependant, de la fin de la mani�re de g�n�rer de la po�sie � partir d'images est encore un nouveau th�me, face � d'�normes d�fis.

L'objectif de la technologie du titre d'image et de la g�n�ration d'images est de g�n�rer des phrases descriptives sur les images, et la g�n�ration du langage po�tique est un probl�me plus difficile. Pr�sentation visuelle et stimulation de l'image et aide � mieux g�n�rer des symboles de po�sie, plus loin. Par exemple, les "personnes" dans la description de l'image peuvent utiliser davantage le "Sunshine brillant" et le "bras ouvert" pour symboliser "l'espoir", ou utiliser l'arri�re-plan de "chaise vide" et "obscurit�" pour symboliser la "solitude". Figure 1. Un exemple sp�cifique montre la diff�rence entre la m�me image et sa po�sie.

Afin de g�n�rer de la po�sie � partir d'une image, nous devons particuli�rement faire face aux trois d�fis suivants: Premi�rement, par rapport � la po�sie g�n�rateurs selon le th�me, il s'agit d'un probl�me crois�. Une fa�on intuitive de g�n�rer de la po�sie � partir d'images consiste � affiner les mots cl�s ou l'explication du texte de l'image, puis utiliser ces mots cl�s ou le texte d'explication comme graines pour g�n�rer de la po�sie, tout comme la g�n�ration de po�sie � partir du th�me. Cependant, les mots cl�s ou le texte d'explication perdront de nombreuses informations d'image, sans parler des indices de po�sie qui sont tr�s importants pour la g�n�ration de po�sie. Deuxi�mement, par rapport � la technologie du titre d'image et � la g�n�ration d'images d'essais, la po�sie de la g�n�ration d'images est un travail plus subjectif, ce qui signifie que la m�me image peut correspondre � plusieurs po�mes dans diff�rents aspects, et la technologie / l'image du titre d'image g�n�re plus d'essai plus d'essai . Le terrain d�crit les faits dans l'image et g�n�re des phrases similaires. Troisi�mement, la forme et le style du po�me sont diff�rents de la phrase narrative. Dans cette �tude, nous sommes principalement pr�occup�s par une forme ouverte de po�sie sans po�sie. Bien que nous ne n�cessitons pas de rythme, de rythme ou d'autres techniques de po�sie traditionnelles, il existe encore une structure po�tique et un langage po�tique. Dans cette �tude, nous d�finissons cette qualit� comme po�tique. Par exemple, la longueur de la po�sie est g�n�ralement limit�e; par rapport aux descriptions d'images, la po�sie pr�f�re g�n�ralement les mots sp�cifiques; les phrases en po�sie doivent �tre li�es au m�me th�me et rester coh�rentes.

Afin de faire face aux d�fis ci-dessus, nous avons collect� deux ensembles de donn�es de po�sie annot�s par les humains et �tudi� la cr�ation de po�sie par une technologie de r�cup�ration et de g�n�ration int�gr�es dans un seul syst�me. Afin de mieux �tudier les indices de po�sie de la g�n�ration d'images de la g�n�ration de po�sie, nous avons d'abord �tudi� le mod�le d'int�gration de po�sie visuelle de couplage profond en utilisant les caract�ristiques de l'image CNN, et l'ensemble de donn�es de po�sie multimode contenant des milliers de skip-po�sie d'images Caract�ristiques vectorielles de pens�e dans la collection de po�sie. Ensuite, nous avons utilis� ce mod�le int�gr� pour r�cup�rer des po�mes connexes et diff�rents � partir d'une biblioth�que de po�sie � modes uniques plus grande (c'est-�-dire "Collection de po�sie unique"). Ces images r�cup�r�es, ainsi que la collection de po�sie multimodulaires, constituent une paire de donn�es d'image agrandie (c'est-�-dire �Collection de po�sie multimode (ex)�). Nous proposons �galement d'utiliser la derni�re technologie d'apprentissage de s�quences pour former le mod�le de g�n�ration de po�sie final sur les ensembles de donn�es de po�sie multi-modes (Ex). Cette architecture garantit que nous pouvons d�couvrir et fa�onner un grand nombre d'indices po�tiques � partir d'images �tendues-po�sie-po�sie, ce qui est crucial pour la g�n�ration de po�sie.

Afin d'�viter le probl�me de l'�cart de l'exposition caus� par la s�quence longue (toutes les lignes de po�sie ensemble) et la fonction de perte sp�cifique insatisfaisante pour �valuer quantitativement le probl�me de la g�n�ration de po�sie, nous proposons d'utiliser des po�mes de formation multipli�s multiples. Nous utilisons deux r�seaux de jugement pour fournir des r�compenses pour la corr�lation entre la g�n�ration de po�sie et les images et la po�sie donn�es qui g�n�rent de la po�sie. Nous avons exp�riment� des po�mes multimodaux, des po�mes � modes uniques et des po�mes multi-modes (Ex), de la po�sie g�n�r�e selon les images, puis �valu� la po�sie g�n�r�e de mani�re automatique et artificielle. Nous d�finissons les normes d'�valuation automatiques li�es � la corr�lation, � la nouveaut� et � l'interpr�tation de la coh�rence, et effectuons des recherches sur les utilisateurs sur la corr�lation, la coh�rence et l'imagination pour comparer la po�sie g�n�r�e avec la po�sie g�n�r�e par la m�thode de base. Les r�sultats de cette �tude sont les suivants:

Nous proposons de g�n�rer de la po�sie � partir d'images de mani�re automatique. Pour autant que nous sachions, c'est le premier effort pour essayer de g�n�rer un probl�me de po�sie libre en anglais dans le cadre global. Il permet � la machine d'avoir la capacit� d'approcher les humains dans le travail cognitif.
Nous combinons le mod�le int�gr� po�tique visuel � couplage profond avec des g�n�rateurs d'apprentissage combin�s bas�s sur RNN. Deux d'entre eux ont fourni des r�compenses pour la corr�lation et la po�sie modulaires crois�es gr�ce � une formation de confrontation multiple.
Nous avons collect� le premier ensemble de donn�es d'image-po�sie et le plus grand ensemble de donn�es du Corpus de po�sie publique. En appliquant des normes d'�valuation automatiques et manuelles (y compris des tests de Turing effectu�s par plus de 500 sujets humains), un grand nombre d'exp�riences ont prouv� que notre m�thode est plus efficace que plusieurs m�thodes de base. Afin de mieux promouvoir la recherche de la po�sie de la g�n�ration d'images, nous annoncerons ces ensembles de donn�es non loin.

2 travaux connexes

2.1 G�n�ration de po�sie

Les m�thodes de g�n�ration de po�sie traditionnelles incluent des mod�les et des m�thodes bas�es sur la grammaire, g�n�rant une influence sous contraintes et des mod�les de traduction automatique statistique. Ces derni�res ann�es, gr�ce � l'apprentissage en profondeur, la recherche sur la technologie de g�n�ration de po�sie est entr�e dans une nouvelle �tape. Le r�seau neuronal r�cursif est largement utilis� pour g�n�rer de la po�sie (il est difficile pour les lecteurs de distinguer si ces po�mes sont g�n�r�s par des machines ou des po�tes cr��s). Les travaux de g�n�ration de po�sie pr�c�dents se sont principalement concentr�s sur le style et le rythme de la po�sie, et les recherches r�centes ont introduit les th�mes comme condition pour la g�n�ration de po�sie. Pour un po�me, le th�me est toujours le concept abstrait sans sc�ne sp�cifique. De nombreux po�mes sont cr��s par les po�tes dans une sc�ne sp�cifique et en regardant des paysages sp�cifiques. Ils sont inspir�s par ce fait. Nous avons une �tape plus �troite et essayons de r�soudre le probl�me de la g�n�ration de po�sie de sc�nes visuelles. Par rapport aux recherches ant�rieures, notre travail est confront� � plus de d�fis, en particulier pour tenir compte des probl�mes multi-modaux.

2.2 Description de l'image

La technologie du titre d'image a �t� initialement consid�r�e comme un probl�me de r�cup�ration pour une image donn�e pour rechercher la description du texte � partir de l'ensemble de donn�es, il ne peut donc pas fournir des descriptions pr�cises et appropri�es pour toutes les images. Afin de r�soudre ce probl�me, quelqu'un propose d'utiliser le remplissage de mod�le et le r�seau neuronal convolutionnel (CNN) et les paradigmes de r�seau neuronal r�cursif (RNN) pour g�n�rer la lisibilit� pour atteindre le niveau humain. R�cemment, la g�n�ration du r�seau de confrontation (GAN) est utilis�e pour g�n�rer du texte explicatif bas� sur diff�rents probl�mes. Semblable � la technologie du titre d'image, la g�n�ration d'images d'essais a un d�veloppement similaire. Des recherches r�centes sur la g�n�ration d'images courts d'essais courts se concentrent principalement sur la d�tection r�gionale et la structure hi�rarchique de la g�n�ration de phrases. Cependant, comme nous en parlons, la phrase descriptive de la technologie du titre d'image et de la g�n�ration d'images pour g�n�rer une d�claration descriptive des faits d'image est d�crite, et le traitement de la g�n�ration po�tique est une forme de langage de niveau �lev� qui n�cessite des contraintes de style po�tique et de langue.

3 fa�ons

Dans cette �tude, notre objectif est de g�n�rer de la po�sie bas�e sur des images, de sorte que la po�sie g�n�r�e est li�e � l'image d'entr�e et r�pond aux exigences de po�tique. � cette fin, nous transformons le probl�me en un processus d'apprentissage � formation multiples et optimiser davantage le gradient strat�gique. Le mod�le de g�n�ration CNN-RNN est utilis� comme un corps intelligent. Les param�tres du corps intelligent formulent une politique, qui d�cidera quels mots de cette politique seront s�lectionn�s comme actions. Lorsque le corps intelligent s�lectionne tous les mots d'un po�me, il fournit des r�compenses. Nous d�finissons deux types de r�seaux de jugement pour d�terminer si la po�sie g�n�r�e correspond � l'image d'entr�e et si la po�sie g�n�r�e est po�tique, et elle fournit des r�compenses. Le but de notre mod�le de g�n�ration de po�sie est de g�n�rer une s�rie de mots pour une image pour maximiser la r�compense finale des attentes. Pour de nombreuses t�ches qui ne sont pas en mesure d'utiliser, ce gradient de strat�gie s'est av�r� extr�mement efficace.

Figure 2: Utilisez une formation de confrontation multiple pour effectuer l'architecture de la po�sie. Nous utilisons d'abord l'ensemble de donn�es d'image-po�sie (collection de po�sie multimode) -Poetry pour (a) pour former des mod�les int�gr�s visuels po�tiques � couplage profond (e) dans l'ensemble de donn�es d'image-po�sie (collection de po�sie multimode). L'analyse des mots (outils NLP � l'Universit� de Stanford) extrait les symboles de po�sie (tels que les �l�ments, les sc�nes et les �motions) de la po�sie, et les caract�ristiques de l'image (b) sont davantage de caract�ristiques de po�sie obtenues par le CNN de toxicomane fin en utilisant le CNN extrait. Les caract�ristiques des phrases de la po�sie (d) sont extraites du mod�le (c) de saut (c) form� par la plus grande biblioth�que de po�sie publique (collection de po�sie monomode). Le g�n�rateur de d�claration bas� sur RNN (F) est form� comme un Smartman. Les deux jugements (l'�tat multi-modes (g) et le style po�tique (h) g�n�r� par le jugement bas� sur l'image donn�e) fournissent des r�compenses d'essence Le dispositif d'analyse de mots extrait les mots de la po�sie.

Comme le montre la figure 2, l'architecture contient plusieurs parties: (1) le mod�le visuel po�tique int�gr� (e) utilis� pour apprendre le couplage profond de la pr�sentation po�tique de l'image (E), et (2) l'optimisation de la formation multipliante de l'image de Gradient de strat�gie. Les deux r�seaux de discrimination (G et H) sont bas�s sur RNN en tant que corps intelligent pour fournir des r�compenses au gradient strat�gique.

3.1 Po�tique visuel int�gr� dans un couplage profond

L'objectif du mod�le d'int�gration de la po�sie visuelle est d'apprendre l'espace int�gr�. Dans cet espace, diff�rents modes (tels que des images et des d�clarations) peuvent �tre la cartographie. Nous utilisons une m�thode similaire au probl�me technique du titre d'image. En supposant qu'une paire d'images et de po�sie partageant la m�me s�mantique po�tique, ce qui fait que l'espace int�gr� peut �tre appris. En int�grant le m�me espace de caract�ristique de l'image et de la po�sie, nous pouvons calculer directement la corr�lation entre eux � l'aide d'un po�me et d'un vecteur de po�sie pr�sent� par une image. De plus, nous pouvons utiliser davantage les caract�ristiques int�gr�es pour initialiser l'optimisation des indices de po�sie dans la g�n�ration de po�sie.

Notre architecture de mod�le po�tique visuelle profond�ment coupl�e est repr�sent�e dans la partie gauche de la figure 2. Pour l'apport d'images, apr�s avoir recherch� les facteurs importants de la po�sie de la g�n�ration d'images, nous utilisons des r�seaux de neurones convolutionnels profonds (CNN) - les trois aspects de l'indice de la po�sie importante dans le r�seau et la sc�ne d'image symbolique (V2) sont li�s � l'�motion (V3) . Nous observons que les concepts de la po�sie sont g�n�ralement imagin�s et po�tiques, et le concept de la concentration de donn�es de classification des mod�les CNN est sp�cifique et ordinaire. Les diff�rences s�mantiques entre l'expression visuelle et l'expression du texte de la po�sie, nous avons propos� l'utilisation de la po�sie multi-modes Ensembles de donn�es sur les fins fines ces r�seaux. Nous choisissons des mots cl�s couramment utilis�s li�s aux �l�ments, aux �motions et aux sc�nes de la po�sie bas�es sur des ensembles de donn�es de po�sie modale, trois autres ensembles de donn�es d'�tiquette ont �t� �tablis pour la d�tection des �l�ments, des �motions et des sc�nes. Apr�s le L'ensemble de donn�es multi-�laborations a �t� termin�, nous avons raffin� les mod�les CNN pr�-form�s dans trois ensembles de donn�es. Dimensionnaire dans tous les aspects de l'avant-derni�re couche de connexion du mod�le CNN, et a obtenu la s�rie Nd n-dimensionnal nd (n = d � 3) vector Vector V (v Rn) pour entrer l'entr�e de chaque image visuelle po�tique int�gr�e:

Parmi eux, nous utilisons les caract�ristiques de la couche de connexion compl�te comme caract�ristiques de v1, v2, v3. Le vecteur de sortie x de la po�sie visuelle int�gr�e x est le vecteur de dimel k, qui repr�sente la caract�ristique de l'image de la caract�ristique caract�ristique de l'image: mappage lin�aire:

Parmi eux, wvkrkxn est une matrice int�gr�e d'image, et bvRK est le vecteur de d�viation d'image. Dans le m�me temps, le vecteur d'expression de la po�sie est calcul� sur la base de la valeur moyenne de la pens�e � sauter dans l'instruction POEM. Nous utilisons la combinaison de skip avec le vecteur de dimension m (enregistr� comme tRM), car il montre une meilleure performance comme illustr�. Le mod�le � baisse de saut est form� dans un ensemble de donn�es de po�sie unique. Semblable aux images int�gr�es, l'int�gration de la po�sie est exprim�e comme suit:

Parmi eux, WTKRKXM indique que la po�sie est int�gr�e dans la matrice, et BTRK repr�sente le vecteur de d�viation po�tique. Enfin, l'utilisation de points de similitude pour minimiser la perte de tri de chaque paire, int�grant ainsi l'image et la po�sie:

Parmi eux, MK est une po�sie de recherche comparative (non pertinente, pas � droite) pour l'int�gration d'images X, et XK est le contraire. repr�sente les marges de comparaison. Par cons�quent, notre mod�le d'entra�nement produira une similitude de cha�ne plus �lev�e que la g�n�ration de mani�re al�atoire d'une cha�ne plus �lev�e (similaire au point) entre les caract�ristiques soutenues de la paire d'image d'image d'origine.

3.2 G�n�rateur de po�sie comme corps intelligent

Le mod�le traditionnel CNN-RNN de la technologie du titre d'image est utilis� dans notre m�thode comme intelligent. Nous n'avons pas utilis� la m�thode hi�rarchique utilis�e pour g�n�rer plusieurs instructions dans l'essai r�cent de la g�n�ration d'images. Au lieu de cela, nous avons utilis� le mod�le r�cursif non -tip en utilisant la phrase se terminant comme mot dans le vocabulaire. La raison en est que par rapport aux paragraphes, la po�sie contient moins de mots. De plus, la coh�rence du niveau entre les phrases de la po�sie de formation est plus faible, ce qui rend difficile l'apprentissage entre les niveaux entre les mots. Nous utilisons �galement le mod�le de langage r�cursif comme r�f�rence pour les exp�riences, et nous montrerons les r�sultats dans la section exp�rimentale.

Les mod�les g�n�r�s incluent le codeur d'image CNNNS et le d�codeur de po�sie RNN. Dans cette �tude, nous utilisons des unit�s de boucle de contr�le de porte comme d�codeurs. Nous utilisons les fonctionnalit�s int�gr�es d'image obtenues par les mod�les int�gr�s de po�sie visuelle dans le couplage en profondeur de la section 3.1 comme codeur d'entr�e d'image. Supposons que soit le param�tre du mod�le. Traditionnellement, notre objectif est d'apprendre en maximisant les similitudes de la phrase d'observation y1: tY * (o� t est la longueur maximale des phrases de g�n�ration (y compris la fin de l'�nonc� repr�sentatif et la fin de la d�claration repr�sentative), y * * repr�sente tous les espaces de s�quence s�lectionn�s).

L'ordre r (y1: t) repr�sente la r�compense lorsque le temps t, et r (y1: t) est une r�compense cumulative, c'est-�-dire r (yk: t) =

Essence Tous les mots pr�c�dents y1: (t-1), de sorte que p (yt | y1: (t-1)) est la probabilit� de condition de param�tre de yt lorsque le temps T. P est la fonction de param�tre de la politique . Chaque lot de r�compenses de gradient strat�gique peut �tre calcul�e comme la somme de toutes les s�quences d'action efficaces comme les r�compenses futures pr�vues. Il it�re toutes les s�quences d'action possibles est une croissance de l'indice, mais nous pouvons l'�crire dans les attentes. De cette fa�on, nous pouvons utiliser une mesure d'estimation impartiale pour l'approximative:

Nous maximions j () en suivant son gradient:

En pratique, le gradient d'attente peut �tre approximativement utilis� pour utiliser un �chantillon de Monte Carlo. La m�thode d'utilisation est la suivante: chaque YT est �chantillonn� du mod�le distribu� dans le mod�le ... Comme d�crit, la ligne de base B peut �tre introduite pour r�duire le variance de l'estimation du gradient sans modifier le gradient attendu. Par cons�quent, le gradient attendu d'un seul �chantillon est approximativement �gal ::

3.3 Le discriminateur comme r�compense

Une bonne image de po�sie doit respecter au moins deux normes: po�sie (1) li�e aux images, et (2) en termes de longueur appropri�e, de style de langage po�tique et de coh�rence po�tique. Sur la base de ces deux exigences, nous avons propos� deux r�seaux discriminatoires pour guider la g�n�ration de la po�sie: le jugement multimodaliste et le discriminateur de style po�tique. Il a �t� prouv� que le r�seau de jugement profond a une grande efficacit� dans les t�ches de classification du texte, en particulier pour les t�ches qui ne peuvent pas �tablir une bonne fonction de perte. Dans cet article, les deux discriminateurs que nous avons propos�s ont plusieurs cat�gories, dont une classe positive et multiple n�gative.

Discriminateur multi-modes: Afin de v�rifier si la po�sie g�n�r�e Y correspond � l'image d'entr�e X, nous formons le discriminateur multi-modal (DM) pour classer (x, y) en trois cat�gories de correspondance, et non de correspondance et de g�n�ration. Essence DM comprend un codeur multimodal, une couche de fusion modale et un classificateur avec une fonction softmax:

Parmi eux, WX, BX, WC, BC, WM, BM sont des param�tres � apprendre. sont des multiplications de niveau d'�l�ments, tandis que CM repr�sente la probabilit� de trois types de discriminateur multi-modes. Nous utilisons l'encodeur de d�claration bas� sur GRU pour mener une formation discriminatrice. La formule 11 fournit la m�thode de probabilit� de g�n�ration (classification x, y � chaque type, et en utilisant cm (c | x, y) �). Parmi eux, c {correspondant, non correspondant et g�n�r�}.

Discriminateur de style de po�sie. Contrairement � la plupart de la g�n�ration po�tique de la po�sie, du rythme, du rythme, du rythme, du rythme, du rythme, du rythme, du rythme et d'autres technologies de po�sie traditionnelles, nous sommes pr�occup�s par une forme ouverte de po�sie sans po�sie. Cependant, comme d�crit dans la section 1, la po�sie que nous nous demandons a des caract�ristiques po�tiques. Nous n'avons pas d�sign� de mod�les ou de r�gles sp�cifiques pour la po�sie, mais nous avons propos� le discriminateur de style po�tique (DP) pour guider la po�sie g�n�r�e dans le sens de la po�sie cr��e par les humains. Dans DP, la po�sie g�n�r�e sera divis�e en quatre cat�gories: po�tique, d�sordonn�e, paragraphe et g�n�ration.

Po�tique est un exemple positif de normes po�tiques. Les trois autres cat�gories sont consid�r�es comme des exemples n�gatifs. La classe d�sordonn�e concerne la structure interne et la coh�rence entre les versets, tandis que la classe de paragraphe utilise des phrases de paragraphe et est consid�r�e comme un exemple n�gatif. Dans DP, nous utilisons l'ensemble des po�mes � modes uniques comme exemple po�tique positif. Afin de construire une cat�gorie d�sordonn�e, nous avons d'abord �tabli un pool de po�mes � travers tous les po�mes dans la concentration de po�mes uniques-modaux. Nous s�lectionnons au hasard un nombre raisonnable de po�mes dans le pool de piscine pour re -former la po�sie comme exemple de classe d�sordonn�e. L'ensemble de donn�es paragraphe fourni est utilis� comme exemple de paragraphe.

G�n�rez compl�tement la po�sie y pour �tre cod� par GRU, analysez-la dans la couche de connexion compl�te, puis utilisez la fonction Softmax pour calculer la probabilit� d'�tre class� en quatre types. La formule de ce processus est la suivante:

Cp = softmax (wp gru (y) + bp), (12)

Parmi eux, , WP et BP sont des param�tres � apprendre. La probabilit� de g�n�ration de la po�sie est class�e � la cat�gorie C. CP (c | y) peut �tre calcul�e, o� c {po�tique, d�sordonn�, paragraphe et g�n�r�}.

Fonction de r�compense. Nous d�finissons la fonction de r�compense du gradient strat�gique comme la po�sie g�n�r�e Y (g�n�r�e en fonction de l'image d'entr�e x) � la cat�gorie avant (cat�gorie de jugement multi-modes DM et discriminateur de style po�sie DP Po�tique Cat�gorie)., Puis pond�r� le param�tre pond�r� param�tre pond�r� :

R (y | ) = cm (c = appari� | x, y) + (1 -) cp (c = po�tique | y). (13)

3.4 Formation multi-confrontation

Avant la formation de confrontation, nous avons utilis� la technologie de g�n�ration de titre d'image pour mener des g�n�rateurs de pr�-formation, offrant une meilleure initialisation de strat�gie pour le g�n�rateur. Le g�n�rateur et le discriminateur sont renouvel�s par confrontation. Le but du g�n�rateur est de g�n�rer de la po�sie qui r�pond aux normes, afin que les deux jugeurs obtiennent des r�compenses plus �lev�es. De cette fa�on, lorsqu'ils trompent le juge, le dispositif de jugement peut �tre form� pour apprendre � distinguer la po�sie g�n�r�e et la po�sie et la po�sie correspondantes . Po�sie. Comme mentionn� ci-dessus, la po�sie g�n�r�e est utilis�e comme probabilit� de la cat�gorie positive comme r�compense du gradient strat�gique.

Nous utilisons des exemples positifs � partir de donn�es r�elles (correspondants de po�mes en DM et de po�sie po�tique en DP), ainsi que des exemples n�gatifs de la po�sie g�n�rateurs de g�n�rateurs et d'autres donn�es r�elles (d�ballage des po�mes dans DM et des paragraphes dans DP Train plusieurs discriminateurs (deux dans cet article ). Dans le m�me temps, en utilisant le gradient strat�gique et l'�chantillonnage de Monte Carlo, le g�n�rateur met � jour les r�compenses attendues fournies par une vari�t� de jugeurs. Depuis que nous avons deux discriminateurs, nous avons utilis� plusieurs contre-formation pour former deux jugeurs en m�me temps.

Tableau 1: D�tails de trois ensembles de donn�es. Les deux premiers ensembles de donn�es sont collect�s par nous-m�mes, et le troisi�me est �largi via VPE.

4 exp�riences

4.1 Ensemble de donn�es

Ensemble de donn�es de po�sie mod�le (collection de po�sie � mode unique). Nous avons utilis� le mod�le int�gr� que nous avons form� pour �tendre la paire d'images et de po�sie en ajoutant trois voisins des voisins de la biblioth�que de po�sie non redondante.

Tableau 1: D�tails de trois ensembles de donn�es. Les deux premiers ensembles de donn�es sont collect�s par nous-m�mes, et le troisi�me est �largi via VPE. Et construire une paire de po�sie d'image �tendue, appel�e collection de po�sie multimode (ex). Les d�tails de ces ensembles de donn�es sont pr�sent�s dans le tableau 1. Pour des exemples des deux ensembles de donn�es collect�s, voir la figure 3. Afin de mieux promouvoir la recherche de la po�sie de la g�n�ration d'images, nous annoncerons ces ensembles de donn�es non loin.

Pour les ensembles de donn�es de po�sie multimode, nous avons d'abord grimp� quelques groupes sur Flickr (ces groupes ont essay� de faire correspondre les illustrations pour l'homme avec des illustrations) 34 847 paires de paires d'images-po�sie. Ensuite, nous avons invit� cinq �valuations humaines de la litt�rature anglaise pour �valuer si ces po�mes �taient li�s aux images. Les crit�res de jugement �taient: gr�ce � une consid�ration compl�te des �l�ments, des sentiments et des sc�nes pour d�terminer si l'image pouvait stimuler avec pr�cision le m�me groupe de po�sie. Nous filtrons la paire d'image-po�sie qui n'est pas li�e � l'image non li�e et conserve les 8 292 paires restantes pour former un ensemble de donn�es de po�sie multimodal.

Les po�mes monomode sont rampants � partir de plusieurs sites Web de po�sie en ligne publics, tels que Poetry Foundation, PoetrySoup, Best-poem.net et Poets.org. Afin d'obtenir une formation sur mod�le suffisante, nous avons pr�par� la po�sie pour filtrer la po�sie avec trop de lignes (plus de 10 lignes) ou trop peu (moins de 3 lignes). Nous avons �galement supprim� des po�mes, notamment des mots �tranges, une langue autre que l'anglais et des po�mes r�p�t�s.

4.2 M�thode de comparaison

Afin d'�tudier l'efficacit� de la m�thode propos�e, nous avons compar� diff�rents param�tres avec les quatre m�thodes de base. Nous avons choisi le mod�le d'identification d'affichage et SEQGAN car ils sont les derniers r�sultats de recherche de la technologie du titre d'image. Nous avons choisi une image comparative pour g�n�rer un court mod�le d'essai car il a une forte capacit� � imiter une vari�t� de contenu d'image. Veuillez noter que toutes les m�thodes utilisent un ensemble de po�sie multi-modes (Ex) comme ensemble de donn�es de formation et peuvent g�n�rer une po�sie multi-lignes. Des m�thodes et des param�tres d'exp�rience sp�cifiques sont pr�sent�s ci-dessous:

Display-diff�rentiel (1CNN): Utilisez uniquement l'article CNN et entra�nez le mod�le CNN-RNN via le VGG-16.

Identification d'affichage (3CNN): Utilisez trois fonctionnalit�s CNN pour former le mod�le CNN-RNN via le VGG-16.

SEQGAN: Utilisez un discriminateur (le discriminateur utilis� pour distinguer la po�sie g�n�r�e et la po�sie cr��e par la vie r�elle) pour optimiser le mod�le CNN-RNN.

Hi�rarchie r�gionale: La segmentation des calques de la base g�n�re un mod�le. Afin de mieux �tre coh�rent avec la distribution de la po�sie, nous limitons le nombre maximum de lignes dans l'exp�rience � 10 lignes, et le nombre maximum de mots par ligne est limit� � 10.

Notre mod�le: Afin de prouver l'efficacit� des deux discriminateurs, nous formons nos mod�les dans les quatre arri�re-plans (en utilisant les images GAn, I2P-GAN � la po�sie): Mod�le de pr�-formation sans dispositif de jugement (I2P-GAN W / S Device Device ), le mod�le de formation (I2P-Gan avec DM) uniquement du discriminateur multimodal, mod�le de formation (I2P-Gan avec DP) avec un discriminateur de style po�tique (I2P-GAN W / DP) et deux mod�les de formation de discriminateurs (I2P - Gan).

4.3 Norme d'�valuation automatique

L'�valuation de la po�sie est g�n�ralement une t�che difficile. Il n'y a pas de norme d'�valuation �tablie dans la recherche existante. C'est encore plus pour g�n�rer une nouvelle t�che de g�n�ration de po�sie. Afin de mieux �valuer la qualit� de la po�sie, nous proposons d'utiliser des m�thodes automatiques et artificielles pour �valuer en m�me temps.

Pour l'�valuation automatique, nous vous recommandons d'utiliser trois normes d'�valuation, telles que BLEU, la nouveaut� et la corr�lation. Apr�s standardisation, calculez le score total en fonction de trois normes.

Bleu. Nous utilisons d'abord l'outil auxiliaire de la qualit� de la traduction mutuelle bilingue (BLEU) pour v�rifier � quel point les po�mes sont g�n�r�s par l'�valuation bas�e sur le score. Comme la technologie du titre d'image et la g�n�ration d'images d'essais courts sont g�n�ralement effectu�s. Il est �galement utilis� dans une autre recherche de g�n�ration de po�sie. Pour chaque image, nous n'utilisons que les po�mes cr��s par des �tres humains comme une vraie po�sie.

Nouveaut�. En introduisant le discriminateur DP, le g�n�rateur doit introduire des mots ou des phrases � partir d'un ensemble de donn�es de po�sie en mode unique et g�n�rer des mots ou des phrases qui ne sont pas communs dans la po�sie multimodale (Ex). Nous utilisons la nouveaut� de propos� pour calculer les mots ou phrases � faible fr�quence observ�s dans la po�sie. Nous �tudions les deux normes N-Gram de la nouveaut�-2 et du roman-3 (par exemple, les deux mod�les et les moules ternaires). Nous trierons d'abord le N-gram de l'ensemble de donn�es de formation de po�sie multimode de po�sie (ex) et utilisons les 2000 premiers comme fr�quence �lev�e. La nouveaut� est calcul�e sur la base du rapport N-grammes de l'ensemble de donn�es d'entra�nement (� l'exception des grammes N haute fr�quence dans la po�sie g�n�r�e).

Corr�lation. Diff�rent de la recherche sur la g�n�ration de po�sie sans contraintes ni contraintes, dans cette �tude, nous g�n�rerons la corr�lation entre la po�sie et les images donn�es comme un crit�re important. La g�n�ration de texte de description est plus pr�occup�e par la description factuelle des images. Diff�rentes, la po�sie diff�rente peut �tre li�e � la m�me image � diff�rents aspects. Par cons�quent, nous n'avons pas calcul� la corr�lation entre la g�n�ration de po�sie et la po�sie r�elle. Nous utilisons le mod�le int�gr� de po�sie visuelle en profondeur que nous avons appris pour d�terminer la corr�lation entre la po�sie et les images. Une fois l'image et la po�sie mapp�es dans le m�me espace via notre mod�le int�gr�, nous utilisons la r�sidus de la cha�ne pour mesurer leur corr�lation. Bien que notre mod�le int�gr� puisse approximer la corr�lation entre les images et la po�sie, nous utilisons toujours une �valuation subjective pour mieux �tudier l'efficacit� de notre po�sie au niveau humain.

globalement. Nous calculons le score total en fonction des trois normes ci-dessus. Pour chaque valeur de toutes les valeurs d'une norme A, nous utilisons d'abord les m�thodes suivantes pour revenir � la premi�re m�thode:

Ensuite, nous obtenons la valeur moyenne de Bleu (par exemple, Bleu-1, Bleu-2 et Bleu-3) et la nouveaut� (par exemple, Novel-2 et Novel-3). Nous calculons le score final par la valeur moyenne de la normalisation pour assurer la contribution �gale des diff�rentes normes.

Cependant, dans une t�che aussi ouverte, il n'y a pas de norme particuli�rement appropri�e qui peut parfaitement �valuer la qualit� de la po�sie g�n�r�e. Les normes automatiques que nous utilisons peuvent �tre consid�r�es dans une certaine mesure. Afin de mieux expliquer la qualit� de la po�sie du point de vue de la perception humaine, nous avons �galement effectu� la recherche sur les utilisateurs d'expansion suivante.

4.4 �valuation humaine

Nous avons effectu� des �valuations humaines dans les robots de dinde amazonienne. Nous allons trois t�ches aux travailleurs AMT de la mani�re suivante:

T�che 1: �tudiez l'efficacit� de notre mod�le int�gr� � la po�sie visuelle � couplage profond. L'annotation est n�cessaire pour marquer 0 � 10 points bas�e sur les similitudes de contenu, d'�motions et de sc�nes bas�es sur un po�me et une image donn�e.

T�che 2: Le but de cette t�che est de comparer la po�sie g�n�r�e selon une image, diff�rentes m�thodes (quatre m�thodes de base et nos quatre param�tres de mod�le) dans chaque aspect. Nous donnons une image, obligeant l'annotation � marquer 0-10 points sur la po�sie selon quatre normes: la corr�lation (avec des images), la coh�rente (si les lignes de po�sie sont coh�rentes), l'imagination L'image montre � quel point l'imagination et la cr�ativit�) et l'impression globale .

T�che 3: Nous demandons � l'annotation d'identifier le test de Turing dans la cr�ation humaine mixte et la po�sie g�n�r�e par la machine. Veuillez noter que le test Turing est effectu� dans deux param�tres, c'est-�-dire la po�sie avec des images et des po�mes sans image.

Nous avons s�lectionn� au hasard 1 000 images pour chaque t�che et allou� � trois �valuateurs. Parce que la po�sie est une forme litt�raire, nous avons �galement invit� 30 commentaires li�s � la litt�rature anglaise (dix en tant que langue maternelle) en tant qu'utilisateurs experts pour effectuer un test de Turing.

4.5 D�tails de la formation

Dans les mod�les int�gr�s de po�sie visuelle en profondeur, nous utilisons des caract�ristiques D = 4 096 dimension pour chaque CNN. Nous nous sommes entra�n�s � partir d'imageNet pour extraire les caract�ristiques des objets du VGG-16 form� pour extraire les caract�ristiques de la sc�ne du mod�le Place205-VGGNET et extraire les caract�ristiques �motionnelles des mod�les �motionnels.

Afin de mieux extraire les caract�ristiques visuelles du symbole de la po�sie, nous avons d'abord obtenu le nom, les verbes et les adjectifs des donn�es de po�sie � modes uniques au moins cinq fr�quences. Ensuite, nous avons s�lectionn� des adjectifs et des verbes pour les �motions (y compris 328 balises), et s�lectionnez des noms pour les �l�ments (y compris 604 �tiquettes) et des sc�nes (y compris 125 balises). Quant aux caract�ristiques de la po�sie, nous utilisons M = 2 048-dimension (dont chaque segment de dimension � 1024 repr�sente unidirectionnel et bidirectionnel) pour extraire le vecteur de berce . Le marginal est fix� � 0,2 sur la base des exp�riences empiriques dans le marginal. Nous avons s�lectionn� au hasard 127 po�mes pour une image comme ne correspondant pas � la po�sie, et les avons utilis�es comme po�sie de comparaison (MK et XK dans l'�quation 5), et les avons �chantillonn�es dans chaque num�ro. Nous avons des observations comparables par une �valuation automatique du r�sultat de 0,1 � 0,9, et les param�tres pond�r�s A sont d�finis sur A = 0,8 sur la base de preuves empiriques.

4.6 �valuation

Figure 4: Six m�thodes sont utilis�es pour g�n�rer des exemples de po�sie bas�s sur une seule image.

Rechercher la po�sie. Nous les comparons en fonction de la corr�lation entre trois po�mes et des images: la vraie po�sie, utilisez la recherche VPE, les fonctionnalit�s d'image non qualifi�es (VPE avec un ft) et en utilisant la recherche VPE. Les caract�ristiques graphiques ont �t� bien �tir�es. W / FT). Le tableau 2 montre la comparaison de ces trois types de po�sie en 0-10 points (0 points repr�sentent non li�s, 10 points repr�sentent le plus li�). Nous pouvons voir qu'en utilisant le mod�le int�gr� � po�sie visuelle propos�e, les scores de corr�lation de la r�cup�ration de la po�sie peuvent atteindre le score moyen (c'est-�-dire 5 points). L'utilisation de la po�sie symbolisant les caract�ristiques de l'image finale peut am�liorer consid�rablement la corr�lation.

Tableau 2: Le score moyen des trois types de po�sie et d'images cr��s par les humains, avec un score de 0 � 10 points (0 point non li�, 10 points). Une analyse de variance d'une voie montre que l'�valuation de ces po�mes est statistiquement significative (F (2, 9) = 130,58, P

3CNNCNNCNNCNN-RNNSeqGANVPEVPEI2P-GAN w/ DmBLEUn-gramsDpI2P-GAN w/ DmDpI2P-GANBLEU

445

5 I2P-GAN

3BLEU 14 %

4RelCol Imag 0-10 0-10-

5/ ATM

AMT54810.91515206005AMT

5. Conclusion

RNN-

r�f�rences

T.-H. Chen, Y.-H. Liao, C.-Y. Chuang, W.-T. Hsu, J. Fu, M. Sun..ICCV, 2017.

X. Chen C. Lawrence Zitnick..In CVPR, 2422-2431, 2015.

J. Chung, C. Gulcehre, K. Cho, Y. Bengio..NIPS, 2014.

H. Fang, S. Gupta, F. Iandola, R. K. Srivastava, L. Deng, P. Dollar, J. Gao, X. He, M.Mitchell, J. C. Platt,..In CVPR, 1473-1482, 2015.

A. Farhadi, M. Hejrati, M. A. Sadeghi, P. Young,Rashtchian, J. Hockenmaier, D. Forsyth..In CVPR,15-29, 2010.

A. Frome, G. S. Corrado, J. Shlens, S. Bengio, J. Dean, T. Mikolov,..In NIPS, 2121-2129, 2013.

M. Ghazvininejad, X. Shi, Y. Choi, K. Knight..In NIPS, 1183,1191,2016.

M. Ghazvininejad, X. Shi, J. Priyadarshi, K. Knight.Hafez.ACL, 4348, 2017.

I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu,Warde-Farley, S. Ozair, A. Courville,Y. Ben- gio..In NIPS, 2672-2680, 2014.

J. He, M. Zhou, L. Jiang..In AAAI,2012.

J. Hopkins D. Kiela..In ACL, 1, 168-178,2017.

L. Jiang M. Zhou..In COLING, 377-384, 2008.

A. Karpathy, A. Joulin, F. F. F. Li..In NIPS, 1889-1897, 2014.

R. Kiros, R. Salakhutdinov, R. S. Zemel..arXiv preprint arXiv:1411.2539, 2014.

R. Kiros, Y. Zhu, R. R. Salakhutdinov, R. Zemel, R. Urtasun, A. Torralba, S.Fidler.Skip-thought.In NIPS, 3294-3302, 2015.

J. Krause, J. Johnson, R. Krishna, L. Fei-Fei..CVPR, 2017.

G. Kulkarni, V. Premraj, S. Dhar, S. Li, Y. Choi, A. C. Berg, T. L. Berg..In CVPR, 2011.

Y. Liu, J. Fu, T. Mei, C. W. Chen..In AAAI, 2017.

H. M. Manurung.. 15-19, 1999.

H. Oliveira..Universidade de Coimbra, 2009.

H. G. Oliveira.Poetryme: . , 1:21, 2012.

K. Papineni, S. Roukos, T. Ward et W.-J. Zhu.Bleu: A Method of Automatic Evaluation of Machine Translation .Inals, pp. 311-318, 2002.

C. C. Park et G. Kim. Utilisez une s�rie de phrases naturelles pour exprimer un flux d'images .in Nips, pp. 73-81, 2015.

S. J. Rennie, E. Marchert, Y. Mroueh, J. Ross et V. Goel. Formation de s�quence auto-critique. ArxivPrprint Arxiv: 1612.00563, 2016.

O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A.Khosla, M. Bernstein, etc. .ijcv, 115 (3): 211-252 2015.

K. Simonyan et A. Zisserman. Davidment de la reconnaissance de reconnaissance d'image � grande �chelle R�seaux de neurones. Arxiv Preprint Arxiv: 1409.1556, 2014.

O. Vinyals, A. Toshev, S. Bengio et D. Erhan. Show and Distinguish: a Nerve Image Text explique le g�n�rateur .in CVPR, pp. 3156-3164, 2015.

J. Wang, J. Fu, Y. Xu et T. Mei. Reconnaissance des articles super �loign�s: Utilisez des adjectifs � couplage profond et un r�seau de noms de r�seau d'analyse �motionnelle visuelle .in Ij-Cai, pages 3484-3490, 2016.

L. Wang, S. Guo, W. Huang et Y. Qiao. La sc�ne est autre mod�le 205-vgnet. Arxiv Preprint Arxiv: 1508.01667, 2015.

R. J. Williams. Algorithme de suivi statistique simple pour connecter l'apprentissage am�lior�. Machine Learning, 8 (3-4): 229-256, 1992.

Z. Xu, B. Liu, B. Wang, S. Chengjie, X. Wang, Z. Wang et C. Qi. Puis, alors, alors

R. Yan, H. Jiang, M. Lapata, S.-D. Lin, X. Lv et X. Li. I, Po�sie: Cr�ation automatique de la po�sie chinoise en g�n�rant un cadre inductif par optimisation. P. 2203, 2013 .

X. Yi, R. Li et M. Sun. Utilisez le codeur RNN-Deccoder pour g�n�rer une po�sie classique chinoise. Linguistique informatique chinoise et traitement du langage naturel bas� sur les m�gadonn�es naturellement �tiquet�es, pages 211-223.Springer, 2017.

Q. Vous, H. Jin, Z. Wang, C. Fang et J. Luo. Utilisation de la technologie de titre d'image s�mantique .in CVPR, pp. 4651-4659, 2016.

L. Yu, W. Zhang, J

W. Zaremba et I. SUTSKEVER. Renforcer la machine Turing de l'�criture des �critures -Amendement. Arxiv Preprint Arxiv.1505.00521, 2015.

X. Zhang et M. Lapata. Utiliser un r�seau de neurones r�cursivement pour g�n�rer de la po�sie chinoise .in EMNLP, pp. 670-680, 2014.

Adresse de th�se: https://dl.acm.org/authorize? N660819

Rapport d'examen de la technologie Leifeng.com AI

Route de la soie

Apprenez � conna�tre la Chine

ACM MM meilleur papier

Liste des articles priv�s

Meilleur papier lecture de texte int�gral