« GAN X PNL » contre la génération de langage naturel: les chercheurs canadiens en utilisant la poésie chinoise ancienne génération GAN

Ji-won nouveau rapport

Contre générer réseau (GAN) est un mot chaud en ce moment, et utiliser le GAN traitement du langage naturel (NLP), il a été une préoccupation de l'industrie. Il y a quelques jours, y compris « Deep Learning » un auteur de livre, Aaron Fellow ICRA Courville, y compris des chercheurs canadiens de télécharger le document intitulé « langage naturel contre générer » « accusatoire génération de langage naturel » dans arXiv, a déclaré Il offre un moyen simple et efficace pour générer la formation en langage naturel GAN .

D'qu'elle représente, et en ce qu'il est simple, à partir du générateur pour fournir une distribution de probabilité de la séquence de la chaleur et le vecteur 1- séquence (une séquence de vecteurs-1 chaud) correspondant à la distribution réelle des données aux moyens de détermination, discriminateur de force continue calcule les valeurs .

Le rapport présente un cadre de modèle.

En outre, le document fournit également une évaluation des méthodes quantitatives et qualitatives, montrant la phrase possible pour les conditions de texte fonctionnalités avancées (telles que l'humeur et les problèmes) génèrent.

Conditions exemple de génération de texte donné dans le document : La ligne supérieure est l'utilisation d'Amazon avec une fonction « positive » et ensemble de données de commentaires attribut « négatif » que les données d'échantillons de formation générés, la ligne suivante est il y a des conditions, le même ensemble de données avec le « problème » pour générer des échantillons.

Les auteurs disent, ils veulent explorer l'application de la PNL GAN dans d'autres domaines, tels que le système de dialogue non axée sur les objectifs.

Thèse « contre la génération du langage naturel » et l'introduction expérimentale

résumé

Génération réseau de confrontation (de GAN) récemment dans l'industrie de la vision par ordinateur a causé beaucoup d'attention, et a obtenu des résultats impressionnants en termes d'image de production. Cependant, les progrès contre le bruit généré par le langage naturel des progrès réalisés dans la zone de génération d'image est sans commune mesure, encore loin derrière la méthode (méthodes basées sur la vraisemblance) en fonction de la probabilité. Dans cet article, nous avons une cible unique avec GAN, génération de langage naturel. Papier présente un point de repère simple pour résoudre le problème de l'espace de sortie discret, ne comptez pas sur la fonction d'estimation de gradient (estimateur gradient), et un ensemble de données sur la poésie chinoise a obtenu les meilleurs résultats du courant. Papier fournit également des résultats qualitatifs de la non-contexte et la grammaire hors-contexte stochastique (grammaire probabiliste hors-contexte) pour générer phrase quantitative des résultats et la modélisation du langage. Le document décrit également une version de la condition séquence (version conditionnelle) peut être généré en fonction des conditions de phrase caractéristique.

Les auteurs introduisent le modèle linguistique est généralement évaluée par la probabilité de l'échantillon avec la distribution réelle des données dans le modèle de mesure. Cependant, l'utilisation de GAN, modèle de mesure lui-même la probabilité est impossible, alors ils ont pris les autres méthodes, la probabilité des résultats du modèle ont été évalués en mesurant des échantillons sous réelle distribution des données.

Les auteurs ont été divisés en quatre catégories:

  • langages de génération qui appartiennent ensemble de données CFG échantillon (Toy CFG), et dérivé du Penn Treebank vient PDGF (Marcus et al., 1993) ensemble de données

  • Génération poésie chinoise, et (Yu et al., 2016) et (Che et al., 2017) ont comparé les résultats de

  • Génère une peine de simple langue anglaise, ces phrases de 1 milliard de mots ensemble de données, et Penn Treebank

  • Utilisation conditionnelle GAN, pour générer la peine avec les émotions (sentiment) et les questions (Question) comme propriétés.

  • Les résultats expérimentaux

    Le tableau 1 (ci-dessus) montre l'expérience 1, les résultats d'analyse quantitative phrase générée. Acc représente Uniq et de précision (la précision) et le degré uniques (unicité), LSTM-P représente le judas de sortie avec LSTM. WGAN-GP et GAN-GP représente une pénalité en utilisant un modèle de gradient (gradient pénalité, GP) dans le processus de formation.

    Vu du tableau 2 (voir ci-dessus), la poésie Wu Yan et sept quatrains, la méthode proposée par les scores auteurs de UEBL sont les plus élevés.

    Les résultats générés dans les mots et les phrases Niveau 1 milliard mot ensemble de données.

    Penn Treebank CMU-SE et les données afin de générer un résultat au niveau des mots (niveau Word) est.

    Adresse Papers: https: //arxiv.org/pdf/1705.10929.pdf

    Six pays se rapproche! Laissez la performance du marché vous dire quand commencer une nouvelle voiture est le plus approprié?
    Précédent
    Cherish la mémoire d'un grand homme | Mao Zedong et l'aérospatiale chinoise
    Prochain
    Après Bernaches du Canada a subi une gifle « gifle au visage », ou le pétrole canadien et les agriculteurs ont subi des pertes lourdes
    Le plus approprié pour les destinations de voyage d'hiver 6, de belles personnes ne voulaient pas partir!
    Juste 70000 minimum! Ces ventes de SUV en général, mais pour acheter les bonnes personnes disent
    Chen Wei, tels que: la plate-forme aurait dû laisser les autres l'esprit premier succès, gagnant le pot final des sentiments d'or
    Après les bernaches du Canada, cinq ou faiblesse économique a montré que l'économie canadienne souffrira à nouveau un coup dur
    « Rappeler » pincement sueur froide! brassage d'assurance Marathon bousculade de Xi'an enfants!
    Nom de voiture dans la « métaphysique », les propriétaires BMW Audi a déclaré devenir fou
    Tang: Les petits changements invisibles dans un individu, je ne peux pas comprendre les grands changements dans l'entreprise
    « Percée » la consommation de calcul d'apprentissage profond de 95%, la recherche de hachage KDD2017 pour accélérer l'évolution des réseaux de neurones
    ferroviaire à grande vitesse chinois présenté à la fin de « papier cadeau »
    Magasin 4S parler de la voiture, vérifiez ces trois endroits, aux voitures éviter d'achat et stock essai routier de voiture
    94 ans de la mort de M. Jin Yong: ce monde, les plus hauts arts martiaux, est le temps ......