Digest algorithme de génération et spéciaux | AIS pré-sécher toute la part parlera

AIS (ACL, IJCAI, SIGIR) 2018

Session9: Summarization et génération

1   Ye Yajie l'Université de Pékin

Langue génération via DAG Transduction

La première partie décrit notre mission. Notre tâche est de restaurer la phrase de graphe sémantique originale. papier quadrillé sémantique utilisée est appelée structure de dépendance élémentaire. Il est un schéma d'une sémantique de type à logique sémantique, et il se caractérise par une très plate et d'une pluralité d'arbre de syntaxe hiérarchique ayant une structure et est également très différent. Sur la base de la méthode traditionnelle d'automate DAG à ce traitement sémantique EDS figure une certaine difficulté. Pour résoudre ces problèmes, nous avons sur la base des cadeaux traditionnels sur papier une nouvelle méthode DAG transducteur au graphe acyclique base (DAG) sur une machine automatique.

EDS Ce graphique sémantique sont généralement le bord d'une marque, mais l'utilisation réelle, il n'y a pas besoin de marquer le bord, nous mettons simplement une étiquette sur le bord de devenir un nud spécial, il ne faut pas perdre en même temps pour résoudre le problème l'information d'origine. DAG Transducteur nous utilisons automate à base de DAG. Une règle DAG des automates: Quand un ensemble d'arêtes dans un noeud a M états, N peut être mis dans les états de l'ensemble des arêtes, ce qui achève un processus de transition depuis le bord vers le bord. Tout le but de l'automate DAG est: pas de bord sur le bord d'une marque du DAG plus drapeau de l'Etat, puis la collection à un tableau de points de vie selon les règles, notre objectif est de choisir une méthode de marquer le score le plus élevé.

La deuxième partie décrit l'idée de base de notre conception DAG Transducteur. Transducteur repose essentiellement sur réinscriptible classique, à savoir le noeud est réécrit en un graphe ou sous un sous-arbre, dans le processus de réécriture se poursuit, la structure entière dans une autre structure. Mais nous avons utilisé une méthode relativement nouvelle que nous ne sommes pas basés réécrit, mais sur la base des effets secondaires. informations relatives à un écriture noeud en même temps avec cette identification de chaque noeud du graphe sémantique. Cette information est le processus d'identification produit des effets secondaires, qui peuvent être toute expression ou de contrainte. Dans le document, nous sémantique graphique dans un ensemble d'équations, ces équations décrivent comment les phrases sont formées par épissage dans chaque mot. Nous étions allés à ces équations, on peut mettre un graphe sémantique dans une phrase qu'il représente. Solution de ces processus d'équations, en fait, peut être écrit sous la forme d'un arbre.

Notre système cadre de NLG de base est divisée en deux parties: la première partie est d'utiliser notre DAG Transducteur le graphe sémantique en une séquence de prototype de parole, la seconde partie est une séquence à séquence procédé à chaque mot par le prototype de parole inflexion.

La troisième section décrit comment extraire les règles d'utilisation DAG Transducer. Les règles sont des extraits concentrés à partir des données de formation sur. Pour de meilleurs résultats, nous utilisons une stratégie fine à grossière, qu'il y aura trois niveaux de régulation du système entier: la première est induite par des règles, à savoir les règles résumées déduisent. Cette règle est les règles les plus directes et les plus raisonnables. Nous utilisons ces règles pour améliorer la précision du système, le deuxième est étendu règles, qui est obtenu par un peu de modification des règles induites, dernière est des règles dynamiques dans le graphe sémantique pour achever la transition de la peine, sinon la règle , nous allons produire de façon dynamique ces règles. Nous utilisons cette règle pour augmenter la robustesse du système.

La méthode spécifique pour extraire des règles induites sont: Tout d'abord, un mot de l'intention de noeud TOP, faire une recherche spéciale en profondeur d'abord avec un certain nombre de règles heuristiques. Ensuite, nous avons combiné la section ascendante le long des noeuds de l'arbre de recherche, la fusion est terminée, une liste des parties de section associés sera une figure. Liste des données de l'entraînement par intervalles et nous allons nous concentrer sur ce côté du graphe sémantique pour faire un alignement d'arbre de syntaxe, et enfin nous utilisons la syntaxe d'étiquette nud de l'arbre après l'alignement a été utilisé comme une étiquette sur chaque côté de l'Etat. Selon la relation entre le bord de la plage, il est facile d'écrire les règles.

Partie IV décrit les résultats expérimentaux. Avec cette tâche sur les résultats des ensembles de données AMR et comparaison de base, nous avons conçu notre Transducteur obtenir de meilleurs résultats dans l'ensemble de données EDS.

2 Qiuxi Peng Université Fudan

Vers Diverse Génération de texte avec l'apprentissage par renforcement inverse

(Remarque: L'affichage papier L'AIS au lieu de la pré-conférence donnera un rapport oral Qiuxi Peng)

génération de texte est une tâche très importante, qui est largement utilisé dans la traduction automatique, plug-parler, le texte et les systèmes de summarization dialogue.

Notre objectif est de générer peine plus réaliste. Le modèle de génération de profondeur quelques pratique courante: la première consiste à faire directement avec l'autre approche d'estimation de vecteur MLE, le second est associé à l'approche GAN, le troisième est une pratique inverse cet article en utilisant l'apprentissage de renforcement.

Pour GAN peut être utilisé dans les champs de texte, il y a deux façons: l'une est d'utiliser SeqGAN, approche RankGAN pour renforcer les méthodes d'apprentissage introduites dans. La deuxième méthode est une méthode utilisant Gumbel-softmax, de façon continue à approximativement vecteur d'un chaud, de sorte que le gradient peut être renvoyé. L'avantage de cette approche est que l'inconvénient plus réelle phrase qui en résulte est que la formation ne soit pas très stable, la formation est plus difficile.

Notre méthode utilise l'apprentissage par renforcement inverse pour la production de texte. Et générer à partir de l'ensemble d'apprentissage pour générer un retour d'information, par l'intermédiaire du générateur de mise à jour de rétroaction, capable de générer un meilleur texte. En permanence la formation croisée, et enfin capable de générer un bon texte.

Une hypothèse de base: t une forme de texte rétroaction fonction de probabilité est obtenue avec la distribution d'énergie est proportionnelle à t.

La deuxième hypothèse, que je t peut être décomposé en toutes les étapes du processus de prise de décision, de sorte que lorsque chaque décision sont en mesure d'obtenir une rétroaction, donc finalement mes commentaires ne serait pas trop peu, pas tous auront généré plus de commentaires .

Comment optimiser les paramètres de retour? Maximiser les ensemble de données de formation, les formules ont z log, ce qui maximise le temps, il faut soustraire le z journal, qui est un MLE direct et local essentiellement différent. Alors vous pouvez obtenir une expression pour le gradient après dérivation. Sa signification physique est que je samplé d'une véritable rétroaction de données, l'élargissement d'un échantillonnage du réel, les commentaires des données, l'écart avec mes commentaires du constructeur. Cela est d'obtenir un tel paramètre de rétroaction rétroaction, de sorte que les données réelles, y compris le générateur de données factice génère rétroaction obtenue inférieur.

J'utilise le générateur pour améliorer le processus de gradient de stratégie est appliquée basée sur l'entropie, ce que ces deux sont équivalents, ils ont lancé la même expression.

fréquence expérimentale avec les données expérimentales principalement de deux façons: La première consiste à utiliser Oracle dataset, la probabilité d'essai. La seconde est de faire des expériences sur un texte réel, nous utilisons Bleu en arrière. Avec MLE, SeqGAN, RankGAN, LeakGAN, comparer nos résultats soient meilleurs qu'eux.

Enfin expliquer notre méthode peut réduire les causes de l'effondrement du modèle. La première est parce que le RL Max-entropie recherchera la stratégie de distribution multimodale, plutôt qu'une seule stratégie de distribution de pointe. La deuxième étape est une des hypothèses de distribution de données flexibles.

3 Institut de technologie de Feng Xiao Cheng Harbin

Sujet à Essay Génération avec les réseaux de neurones

Dans cette tâche, nous devons définir des mots-clés pour un travail d'essai, nous voulons entrer dans un certain nombre de mots-clés différents, générons un paragraphe autour de ces mots par ces mots-clés, ce passage est relativement longue, et exigent un langage relativement naturel lisser le texte. Mentionner ici deux défis supplémentaires, est un thème de l'intégrité, nous voulons produire de l'information sémantique à travers un paragraphe entier contenant tous les mots clés saisis. Suivi par la pertinence d'actualité, nous voulons générer chaque mot peut être utile à mes sujets d'écriture, ne veut pas dire que certains des Bai.

Et nous avons encore à faire face à la tâche d'assurer la cohérence et la logique de la représentation. Nous avons effectué dans le cadre traditionnel séquence à la séquence d'une amélioration de deux points, un mécanisme est basé sur le thème de l'attention, l'autre est un mécanisme de couverture multi-sujet.

Tout d'abord, jetez un oeil au plus modèle de base, le modèle est basé sur une moyenne du thème, nous serons tous les mots clés entrent en moyenne, mettre cela comme notre vecteur thème puis décodé par un LSTM. Cette méthode a un problème, nous avons l'entrée de cinq mots, il peut également être une moyenne de cinq autres termes la moyenne, ce qui un sujet n'efface pas le problème. Nous avons donc ajouté un mécanisme d'attention.

Sur cette base, nous proposons un LSTM plurithématique-Aware, cette méthode traditionnelle Quelle est la différence? Nous espérons que ces cinq mots le sujet peuvent être inclus dans un paragraphe qui est généré. Cependant, avant cela, et il existe différents modèles. Parce que l'écriture exige un vrai thème, chaque pièce est de ne pas dire, chaque mot était autour d'un thème, de sorte que l'ensemble du document sera écrit très décontracté, donc nous rejoindrons le coefficient d'atténuation sur la base d'un mécanisme de couverture sur l'original, nous voulons contrôler un thème différent à chaque ralentissement, assurez-vous qu'il y aura un sujet plus important.

Nous modélisons le processus de formation est l'utilisation d'une méthode pour optimiser l'estimation de la probabilité, en utilisant une approche différente dans la phase de décodage, est une sorte de faisceau-recherche + méthode échantillon, nous avons choisi les dix meilleurs après un choisi au hasard, faisceau de recherche n'est pas la même qu'avant la sélection directe des meilleures façons que nous avons trouvé qu'il peut effectivement augmenter la diversité de la composition résultante.

Nous avons construit deux corpus connexes. Nous montions et avons obtenu quelques scores relativement élevés, certains critiques d'articles informatifs, fragmenter le processus. Après l'extraction d'un certain nombre de mots-clés, ces mots-clés comme un essai de mot de sujet, comme entrée. De plus, nous avons constaté que beaucoup de gens ont posé des questions sur le savoir presque corpus, et feront l'objet d'un certain nombre de mots artificiels, nous avons mis ce ramper aussi vers le bas, pour construire un second corpus, corpus est généré sur la base du savoir texte presque.

Dans l'évaluation, nous avons utilisé une combinaison de façon manuelle et automatisée. Dans 1 à 5 minutes en marquant le tri sur une évaluation manuelle. La pertinence du thème peut être vu dans l'intégrité et le thème de notre façon d'obtenir de bons résultats. Nous avons également constaté que la complexité croissante du modèle, la longueur de l'article est également généré à progressivement plus.

Voici une comparaison de deux méthodes pour générer, sur la base d'une poésie PNN générée, une couverture est une attention basée SC-LSTM. Afin de vérifier l'efficacité de l'évaluation manuelle, nous avons également procédé à UEBL d'évaluation automatique, le résultat est conforme à la tendance de l'évaluation artificielle, modèle courant multi-thème nous l'avons mentionné, pour obtenir les meilleurs résultats.

4 Mashu Ming Université de Pékin

Autoencoder Contrôleur adjoint: Améliorer la représentation du texte pour les médias sociaux chinois Texte Summarization

Ce travail est un résumé du texte sur les médias sociaux chinois, commencer par une brève introduction tâche. Ceci est un exemple, la gauche est un contenu de micro-blogging est au sujet d'un article de nouvelles. Cela correspond à droite est un résumé des nouvelles, les gens de fumer vol, l'équipage et les passagers des conflits. Vous pouvez voir le but de cette tâche est basée sur le sens du texte original conservé, le texte de certains résumé des médias sociaux et la généralisation.

Il existe deux méthodes générales ne résumé: un résumé est amovible, il est une formule de synthèse. Nous générative Cet article est un résumé de la méthode utilisée. formule abstraite généralement utilisé Seq2Seq modèle, qui est généralement la trame, coder un premier codage d'un texte en une représentation de texte, puis décoder le produit de digestion a généré correspondant. Nous essayons de faire un peu de temps avec ce modèle a trouvé quelques problèmes, car le texte des médias sociaux, en général, il y aura une expression informelle, et parfois il y aura des fautes de frappe. Dans ce cas, le texte Encoder codé dans une représentation textuelle d'un écart, génère une erreur de la dernière digestion.

Pour résoudre ce problème, nous pouvons penser à des façons de résoudre, la première méthode est une méthode de correction d'erreurs basée sur des règles pour le bruit. Nous savons que le bruit est une grande variété de textes de médias sociaux, on trouve à peine un ensemble de règles pour couvrir la plupart du bruit. La deuxième méthode, nous avons un modèle pour le rendre auto-correction, mais nous ne disposons pas de ces ensembles de données les informations marquées, pour faire une marque spéciale, est beaucoup de travail et de temps.

Donc, à la fin d'une approche plus réaliste est de laisser notre propre résumé du modèle pour apprendre à générer une représentation impartiale du texte. Pour résoudre ce problème, nous proposons une méthode, est d'utiliser un résumé des Autoencoder pour suivre ce modèle Seq2Seq, il est possible de générer une représentation impartiale du texte. encodeur Résumé peut générer un résumé de la représentation du texte. Résumé généralement relativement courte, et il n'y a pas de bruit, et plus important encore, il est le sens sémantique de l'information entre le texte d'origine est la même, afin que nous puissions mettre un résumé de la représentation de texte estimation approximativement sans biais d'une représentation du texte original.

Des méthodes spécifiques. La construction de laisser un modèle Seq2Seq attentionbased et un Autoencoder, alors nous utilisons le résumé de l'ensemble des données de formation, ces deux modèles de formation supervisés. Enfin minimiser leur représentation textuelle de la distance entre ces deux modèles pour atteindre l'objectif de la supervision et de la formation. Ceci est la phase de formation.

Au cours de la phase d'essai, n'a pas besoin Autoencoder, nous ne devons réaliser codec Seq2Seq génère un résumé.

phase de formation, nous avons également ajouté un moyen de formation de combat. Nous avons introduit un discriminateur, laissez-le aller faire la distinction entre le texte original et le texte de représentation textuelle de la représentation abstraite.

section expérimentale. Notre ensemble de données est une grande échelle des ensembles de données de synthèse de micro-blogging, dont 2,4 millions droit d'extrait de texte. Nous avons sélectionné résumé de texte de la méthode d'évaluation standard ROUGE, pour évaluer notre modèle. Nous mettons nos modèles et faire avant de présenter une série de résumé de texte connexe du modèle ont été comparés. Nous pouvons voir que notre modèle est capable de dépasser tous les modèles, obtenir de meilleurs résultats.

Selon une autre expérience a montré que la méthode proposée peut améliorer considérablement la précision du codeur Seq2Seq sur la classification des sentiments, ce qui montre que notre méthode peut en effet entraîner un meilleur codeur, il peut obtenir une meilleure représentation du texte.

Nous avons un code open source, bienvenue à télécharger.

5 Li Haoran Académie chinoise des sciences Institut de l'automatisation

Phrase multimodaux Summarization avec attention et Modality image Filteringe

Tout d'abord, le premier module est le codage hiérarchique. Nous utilisons RNN deux voies encode le texte, utiliser l'image de codage CNN. Ensuite, nous devons aussi être des images pondérées ainsi que du texte et des images génèrent le vecteur de contexte de texte, également connu sous le mécanisme de l'attention. En plus de cela, nous avons mis en place une base de l'attention modale, nous croyons que certains mots de texte pour fournir plus d'informations, plus de photos et des informations fournies par des mots, de sorte que les besoins d'attention à trouver un équilibre entre les deux modes.

La deuxième image est un filtre, une analyse complète de notre texte thématique pour le décodage de l'image et l'état actuel de la pertinence, l'attention est proposée sur la base des photos et des images filtre basé sur le contexte des images vectorielles d'espoir juste équilibre entre poids supplémentaire modal ou image par élément filtrant le bruit causé.

La troisième initialisation du décodeur. décodeur à base de texte traditionnel, seule la fonction texte source d'initialisation. Dans le multimodaux, nous espérons que ce décodeur est initialisé en utilisant les informations de l'image. Nous caractéristiques à base d'images-utilisées entièrement connectées couche CNN et la couche de convolution.

La dernière stratégie est le mécanisme de couverture multimodale. Inspiré par le mécanisme de couverture texte, nous avons conçu un mécanisme fondé sur la couverture des signaux visuels, le décodage du temps où nous pouvons être certains domaines de l'image a donné une grande attention, et le processus de décodage ultérieur, ces zones ne à plusieurs reprises compte tenu de la grande attention. Nous espérons réduire la génération de mots répétés.

Enfin, certains de nos résultats expérimentaux. Pour le modèle multi-modal, mais sans l'utilisation de l'image du filtre en ce qui concerne seulement les informations de texte, il est très petit ascenseur. Après avoir utilisé l'image des filtres, notre modèle a été considérablement améliorée. Pour l'initialisation des différents décodeurs, en fonction des modal initialize couche de convolution, il est le plus efficace. De plus, nous avons constaté que la couverture du mécanisme multimodaux de notre mission utile.

DATA pousser les plus forts M.2 SSD: maître Huirong, lecture atteint 3.5Go / s
Précédent
machine à mille Yuan vous voulez écran bangs? 360 vous aider à atteindre
Prochain
Hangzhou 3D2N sol a pris fin en 2050 l'Assemblée générale a donné naissance à une nouvelle puissance de la technologie
Syntaxiques et analyse sémantique pour comprendre spéciale | AIS pré-sécher toute la part parlera
Pékin Festival international du film « Temple du Ciel Prix » a annoncé 15 films finalistes, en plus de « errant la Terre, » Quoi?
Pourquoi la victoire de Red Devils? Black Shark habitent sur les quatre vice rédhibitoire
Les plus belles personnes, la maison de bienvenue!
son coeur aujourd'hui | dernières noir &! Regardez comment UAV comprenez-vous?
Alibaba: Taobao, Alipay, encore faim, Starbucks Membres ouvrir complètement en place!
Cartes d'extraction de l'information et de la connaissance session | AIS pré-sécher toute la part parlera
Relâchez le réservoir de la rivière Fort, le système mondial de l'eau parc « boisson » 21 Lac Kunming
Seulement cinq mois, puis confirmé! La nouvelle exposition présumée BMW Série 1 chiffre officiel
Pékin Xicheng, les cinq projets non-patrimoine aux successeurs de recruter -
Une nouvelle énergie / carburant / haute performance type de viande Mercedes - Benz Shanghai Auto gamme Afficher annoncé