Comment faire contre le réseau GAN génère la qualité de plus de texte? LeakGAN propres expériences: « confrontation, vous pourriez avoir besoin d'un espion! »

Lei Feng réseau Technologie AI Note de l'examen: Depuis la formule GAN de réseau apparaissent conflictuelles, et ses variantes a été maintes fois prouvé son efficacité dans la tâche de génération d'image, mais aussi continuer à attirer un nombre croissant de chercheurs ajouté à l'étude pour améliorer la contrôlabilité et la stabilité de la formation GAN.

Dans un premier temps, en raison d'un défaut dans lequel, dans la génération de texte aspect Gans ne peut pas être efficacement appliquée. L'équipe a bénéficié de SeqGAN déjà publié, GAN sur le texte peut avoir généré, mais la performance n'a pas été si importante dans la tâche de génération d'image. L'un des principaux problèmes est que le générateur G de l'information de rétroaction contenue dans le discriminateur D obtenu trop petit pour la mise à jour guider efficacement G, améliorer la qualité de la génération de texte, en particulier lorsque la longueur du texte de longue date.

Cela conduit à la question suivante: Si le discriminateur information Plus au générateur si le générateur peut effectivement améliorer la performance de la tâche de génération de longues phrases il? Professeur Yu Yong, Université Jiaotong de Shanghai, Zhang Weinan assistants professeurs et étudiants Guojia Xian, Lu Sidi, Tsai Han conjointe Département UCL de l'informatique Professeur Wang Jun ensemble pour compléter le document intitulé « Texte génération via Long accusatoire formation avec fuite d'information » (information divulguée par conflictuel Stagiaire texte croissance), ils générer de longues phrases de texte ce problème a été étudié, nous avons trouvé la réponse proposée moyen efficace de lutter contre le réseau est largement utilisé dans le quiz du robot, la génération automatique de nouvelles, et la traduction automatique et d'autres applications il offre la possibilité.

formule antagoniste réseau (Gans) générée à l'origine des données d'image ou analogue de conception continue. Avant SeqGAN du Groupe et d'autres modèles peuvent gérer une séquence de segments discrets de données, de sorte que vous pouvez lutter contre le réseau qui offre la possibilité de générer du texte, montrant des résultats prometteurs. Comme le texte anglais est naturellement une des tâches mot par mot génération de texte peut être modélisé comme une séquence de processus de prise de décision, pour chaque étape du chemin, l'état actuel est des mots déjà généré, le comportement va générer mot la génération d'un réseau G est mis en correspondance avec l'état actuel du comportement de la politique de répartition spatiale aléatoire. Après la fin de la génération de texte de la phrase, la phrase résultant est introduit dans le discriminateur D, qui peut être séparé du texte proprement dit et la zone de texte généré après la formation, retourne les résultats pour distinguer entre G est obtenu, le guide il met à jour.

Après SeqGAN, les chercheurs ont proposé un certain nombre de façons de GAN et ses variantes sont utilisées pour la production de texte. Cependant, ces résultats sont souvent limités au texte est la génération courte (par exemple 20 mots ou moins), peu de recherche aspects les plus difficiles de génération de texte ne voit plus. Dans les rapports de presse, qui génèrent automatiquement des descriptions de produits de la tâche réelle, la capacité à long génération de texte est indispensable. A présent procédé de génération de texte sur la base de la séquence de prise de décision il y a un grand manque de cette probabilité à partir du signal discriminateur D de rétroaction scalaire est rare, car le texte bien que le G-par-mot généré dans une action multi-tour, mais seulement si après la fin de la phrase entière génère G pour recevoir le signal de rétroaction provenant du D. De plus, G est censé mettre à jour leur stratégie sous la direction de D, D, mais le texte intégral de ces commentaires est un scalaire, une quantité très limitée de l'information, ne suffit pas de conserver la structure syntaxique et sémantique du texte dans le processus, il ne peut pas G apprendre efficacement mise à jour de l'aide.

D'une part, afin d'augmenter la quantité d'informations provenant du discriminateur D, qui devrait être fourni en plus de la valeur de retour de jugement final plus d'informations d'orientation D est après tout une structure connue, formée réseau CNN, plutôt qu'une boîte noire tout à fait possible D pour fournir plus d'informations. D'autre part, les informations de guidage de D est encore clairsemée, afin de remédier à ce problème, les auteurs pensent que le niveau d'utilisation de la production de texte, à savoir: des échantillons réels de texte sont conformes aux niveaux de langue et de la parole structure sémantique, etc. écrite. Le modèle sera en mesure d'apprendre plus facilement grâce à la tâche toute génération de texte en sous-tâches multiples dans la hiérarchie.

Dans cet article, les auteurs le long de plus que l'idée, a proposé une structure appelée modèle LeakGAN, tout en traitant deux informations de rétroaction de déficit en D et la rétroaction problème clairsemés. discriminateur LeakGAN D est un moyen pour fournir plus d'informations sur le nouveau motif générateur G.

Pour utiliser D de fuite d'information dimensionnelle, les auteurs font référence comme représenté sur la figure. DeepMind publiée dans féodales réseau ICML2017 conçu un générateur hiérarchique G, qui comprend un ordre élevé et faible pour le module Manager le module travailleur. Module LSTM Manager est un réseau, il est le rôle des intermédiaires d'information. Au cours de chaque cycle pour générer un mot d'un nouveau module Gestionnaire D sont reçus du discriminateur pour caractériser de grande dimension, tels que D la carte de fonction réseau CNN, puis module Gestionnaire utilisera cette information pour guider la formation de la cible (objectif) , agissant sur le module actuel des travailleurs. En raison du rôle de D et G aurait pu être conflictuel, l'information D ne doit rester dans leur propre interne, mais maintenant il y a des informations dans D est « fuite » à G, comme si, comme un espion, de sorte que les auteurs ont nommé LeakGAN.

Ensuite, lorsque le module Manager génère la cible intégration (intégration de but) après, les modules de travailleurs vont mot actuellement généré avec un autre réseau de LSTM de codage, la sortie de la moissonneuse-batteuse cible LSTM intégré pour faire en sorte que la direction peut être intégré selon le gestionnaire et l'état actuel génère un nouveaux mots appropriés. Grâce à ce processus, les commentaires de D serait non seulement montré que les résultats de la discrimination scalaire après la fin de la génération de la phrase, mais aussi dans le processus de génération dans cette phrase fournit beaucoup d'informations à travers le vecteur cible intégré, l'orientation G améliorer leur performance.

Selon les auteurs, c'est le premier cadre de GAN pour mieux générateur de train par voie de divulgation de l'information, et une combinaison de l'apprentissage par renforcement hiérarchique pour résoudre le problème de la génération de texte long.

La conception des auteurs, le constructeur du module Manager reçoit un vecteur caractéristique de la D, et génère la cible cible de liaison des travailleurs du module embarqué généré phrase en cours et l'ensemble du processus du nouveau mot sont différentiables, l'algorithme gradient REINFROCE une telle stratégie peut être fin immédiatement à la fin (bout à bout) pour la formation de G. Toutefois, en raison du module Worker Manager et le module devrait être en mesure de se concentrer sur leur tâche d'identifier toutes les fonctionnalités utiles, ce réseau féodales dans la pratique, le module Manager et des modules travailleurs reçoivent une formation séparément de l'identification du module auquel le gestionnaire espace caractéristique est plus utile pour prédire la direction, puis faire l'action du module de travailleurs dans cette direction recevra une récompense. Formation et module Gestionnaire des modules travailleurs sont mis à jour en alternance, chaque fois un fixe, une autre mise à jour.

En outre, les auteurs ont également soigneusement conçu une méthode de formation pour faire face au problème de la formation GAN en général sujettes à de tels problèmes gradient disparaît, il y aura beaucoup plus forte lorsque le rapport D G. Inspiré RankGAN dans les méthodes de tri, ils font une méthode simple et efficace de classement en fonction de la « bootstrap Réactiver » (Activation TRANSFORMÉ la méthode bootstrap) pour ajuster la taille D des commentaires. Après cette conversion, chaque mini-batch et la différence obtenue de rétroaction désirée sera constante, cette méthode est équivalente à une valeur du stabilisant, lorsque l'algorithme est très sensible à la valeur quand la taille d'une grande utilité à la fonction, et comme la méthode de tri, il peut également éviter le problème de la disparition du gradient, ce qui accélère le modèle de convergence.

Les auteurs ont également prendre une méthode pour éviter le problème du mode effondrement (effondrement du mode) la formation en alternance (Interleaved formation), qui est, après la pré-formation, et non pas toute la formation contradictoire habituelle jusqu'à ce que la convergence, mais laissez l'apprentissage et de la formation supervisée tour à tour de formation contradictoire. L'importance de cette approche est que le modèle peut aider à éviter le mauvais minimum local, et d'éviter l'effondrement du modèle. D'autre part, l'ajout du modèle de formation d'apprentissage supervisé est de générer une régularisation implicite, éviter les comportements de modèle d'apprentissage non supervisé écarte trop du résultat.

courbe de formation figure peut être vu, LeakGAN chute log-vraisemblance négatif beaucoup plus rapide que les méthodes conventionnelles, la longueur du texte est de 40 à la situation, la méthode classique est la convergence difficile, voire même.

Les auteurs basés sur les données générées et des données réelles à faire beaucoup d'expériences. Dans l'expérience sur la base des données générées, LeakGAN fait modèle de probabilité nettement inférieur à celui avant le logarithme négatif de la séquence de 20 à 40 à la longueur du mot de texte. (Tableau 1)

Dans les expériences basées sur des données réelles, les auteurs ont choisi EMNLP 2017 nouvelles WMT, l'annotation d'image COCO et la poésie chinoise étaient aussi long, moyen et court corpus de texte, LeakGAN également obtenu le meilleur score de l'UEBL. (Tableau 2,3,4)

Chez l'homme test de Turing, LeakGAN a également réalisé modèle nettement améliorée que par le passé. (Tableau 5)

Les auteurs ont également des interactions entre le module et le module Worker Manager pour faire des recherches approfondies, les résultats montrent LeakGAN en l'absence d'une structure de phrase explicite situation donnée peut être apprendre implicitement la structure des phrases, tels que la ponctuation, longue et tendue suffixe.

Ce qui suit est un exemple comparatif de texte généré par le modèle et les travaux antérieurs:

Les détails spécifiques de l'étude se trouvent dans les documents originaux https://arxiv.org/abs/1709.08624, le papier a une richesse de l'annexe de données décrit le processus de formation, à condition que beaucoup de phrases générées et fournit un code modèle.

De plus, nous sommes également invités à l'un des auteurs du papier Zhang Weinan faire Lei Feng réseau classe ouverte, et expliquer les résultats de ce document avec GAN texte ne génèrent plus les conditions de recherche liées.

Zhang Weinan maintenant disponible au Département d'informatique de l'Université Jiaotong de Shanghai et Johns Croft Research Center en tant que professeur adjoint, direction de la recherche pour l'application des problèmes miniers d'apprentissage de la machine et des données. Il est diplômé de l'Université Jiaotong de Shanghai en 2011 cours ACM Informatique, Département d'informatique, Université Ph.D. College de Londres en 2016, a publié 50 articles de recherche dans des conférences universitaires internationales haut et revues, cinq fois le premier auteur les données publiées dans la Conférence scientifique internationale ACM KDD, 2016 a été décerné par Microsoft Research Award « la recherche mondiale SIGKDD Top 20 l'étoile montante » titre, en 2017 pour obtenir la Conférence ACM SIGIR sur l'information recherche internationale candidature meilleur prix du papier. Il a remporté la troisième place dans les utilisateurs du monde entier KDD-concours Coupe personnalisée recommandations, concours de l'algorithme d'appel d'offres le championnat final des données globales annonces d'affichage d'enchères en temps réel. Page personnelle de recherche: http: //wnzhang.net/

Ouvert le temps de classe est le 28 Septembre 20h00 jeudi soir, les lecteurs intéressés peuvent analyser l'enregistrement du code, à ne pas manquer!

Documents de contenu lié Lei Feng réseau compilé AI Technology Review, merci Zhang Weinan Professeur adjoint, la correction du professeur Wang Jun de cet article.

Downtown qui touche de test drive orange Dongfeng Fengshen AX5
Précédent
On peut voir et jouer, cette musique locale-enfant parent d'origine laisser les victoires des enfants
Prochain
Sa femme a beaucoup changé? « AMANT » 6 héroïne et système d'information
La voiture peut souhaiter attendre quelques jours de nouvelle voiture « annuelle SUV bientôt en vente!
Pourquoi tourner le temps de descendre?
Des études nouvel algorithme d'essaim de particules à base de redresseur VIENNE efficace
film nominé aux Oscars « Les aventures de taureau » des centaines de millions à la comédie dramatique box-office beau cheval Tucao exposition édition spéciale
Pourquoi courir dans les voitures du Tibet sont Toyota Land Cruiser? Land Rover au lieu d'une BMW?
Qualité de puissance transformateur électronique comporte une partie de stockage de l'énergie électrique
Tom Cruise désespérément! 6 blessés dans le tir Mission Impossible exposition vidéo au ralenti, ce qui expose la cheville est encore blessé
Baidu a lancé SVAIL Q modèle GNR efficace, 24.7 fois plus rapide que les deux voies flux Remarque
855 + 12 + 44 = iQOO évaluation du téléphone phare extraordinaire
[Hot] industrie Tencent Ma: 5G AI et promouvoir le développement de l'industrie de l'Internet (joindre le texte intégral de la parole)
James Franco en raison d'allégations de harcèlement sexuel, Oscar était sorti, était également de la couverture de Vanity Fair P