La machine n'apprend pas: pour renforcer l'apprentissage joue le rôle dans la génération contre le texte de réseau de nouvelle génération

https://zhuanlan.zhihu.com/p/29168803

1. de base: la génération d'un cadre de texte modèle standard

Création d'un texte (Texte génération) par L'apprentissage machine, traitement du langage naturel +  Essayez de faire la technologie AI a la capacité d'exprimer la langue au niveau humain, dans une certaine mesure, le niveau actuel de développement capable de réagir le traitement du langage naturel.

La description qui suit avec minimaliste présentent généralement en technique de génération de trame de texte, en particulier se référer aux différents documents de réseau (par exemple: RPSC Blog classique « génération de texte fun » ), papier et autres.

Le texte généré par la tâche, le plus populaire sont: la traduction automatique, la génération de phrase, générer le dialogue, etc. Cet article se concentre sur les deux derniers. Texte générateur basé sur le cycle d'apprentissage en profondeur est généralement réalisée à l'aide de réseaux de neurones de modélisation sémantique (base RNN, LSMC, GRU, etc.). Dans la tâche de génération de phrase, une application commune: « Char-RNN » (ici, « Char » est le titre au sens large, cela peut signifier un caractère, un mot, ou d'autres unités de la taille du texte), mais la base est simple réaction de clarté phrase générée par les processus en cours d'exécution, vous devez d'abord de créer un thésaurus vocab Contient tous les caractères ou des mots qui peuvent surgir, chaque modèle prédit mots apparaîtront phrase suivante, vous savez sortie softmax est seulement une distribution de probabilité, son thésaurus dimension vocab  La taille, doit être soumis à la fonction de distribution de probabilité de sortie converti par Un chaud  vecteur, thésaurus vocab résultats récupérés correspondant à un terme, quand la formation du modèle « Char-RNN », en utilisant une fenêtre glissante dans le corpus, et immédiatement après le contexte des caractères dans la fenêtre avec un ensemble d'échantillons d'apprentissage et les étiquettes, respectivement, chacun en fonction d'une taille de pas fixe pour dériver l'ensemble fenêtre coulissante « échantillon - appellation » paire.

Sentence générer des tâches similaires, créer un dialogue dans les groupes de dialogue comme un « échantillon - Label » Oui, réseau de neurones récurrents RNN_1 Dialogue codage de ce qui précède, puis une autre boucle réseau neuronal RNN_2 Soyez mot décodé par mot, et au moins une sortie décodée du neurone en neurone d'entrée de décodeur génère le dialogue ci-après, notez que: avant le décodage nécessaire de configurer « Démarrer » _ Flag pour ordonner au décodeur Décodeur son tour, génère le premier mot (ou mots) Dialogue Ci-après, la configuration et « Fin » _ Marqué pour indiquer la fin de décodeur le processus en cours de génération de texte.

Ceci est la forme de base du cadre bien connu « Seq2Seq », afin d'améliorer l'effet de la Seq2Seq basée sur un modèle avec un tel angle directement à partir du décodeur Beam-Recherche Décodeur , mécanisme de l'attention  Décodeur (mécanisme d'attention du décodeur disposé) ou analogue, afin d'améliorer, mais à partir de la structure du réseau de neurones, il y a par exemple pyramidal RNN (pyramide RNN), hiérarchique RNN codeur (codeur de cycle de réseau hiérarchique ) et d'autres améliorations. D'innombrables améliorations, pas un détails de donner, mais peu importe, le résultat de prédiction de sortie est toujours une distribution de taille de lexique dimension de probabilité, la sélection de la nécessité indice au maximum, au thésaurus vocab mot correspondant (ou caractère) pour obtenir des résultats.

2. Problème: GAN pourquoi ne peut pas être utilisé directement pour la production de texte

2.1. Bases de GAN

GAN pour tout le monde doit avoir été populaire, et ici pour faire une simple examen. GAN Structurellement intelligemment simples (bien qu'il existe d'autres travaux classiques avec des litiges similaires Idée ), est également très facile à comprendre, tout le modèle ne comporte que deux composantes: un générateur G, 2 D ... discriminateur En fait, le modèle a généré beaucoup de temps, de sorte que le générateur est pas nouveau, le générateur cible G est de générer une fausse répartition de l'échantillon le plus proche de l'échantillon réel, sans au préalable discriminateur D, le générateur repose sur la formation de chaque itération renvoie la différence entre l'échantillon de courant et générer un échantillon réel (cette différence est convertie en perte) pour optimiser les paramètres, et le discriminateur de levée D modifié ce discriminateur cible D est d'identifier le plus fidèlement possible de générer un échantillon et l'échantillon réel, et ensuite formé sur le générateur de cible G « pour générer - différence échantillon réel « devient minimisé par la capacité à identifier un affaiblissement possible du discriminateur D (qui comprend le moment de la sortie D de la fonction objectif est déterminée de la formation). modèle GAN-cadre général comme indiqué ci-dessous:

2.2. Des difficultés face GAN lorsque les données discrètes (ce qui est des données discrètes?)

GAN dès que l'auteur de l'article original de mentionner quand , GAN applique uniquement pour générer des données continues, données insuffisantes pour un effet discret (de sorte que deux du GAN moment de vedette dans le domaine de la PNL a été incapable d'aller au-delà du modèle d'une autre génération un grand frère VAE ). Les données texte sont le plus genre typique de données discrètes, où le soi-disant discret, ne veut pas dire: le mot de texte pour la composition de texte, ou que le cadre le plus populaire de génération de texte, tels que Seq2Seq, sont également par mot (ou individuellement personnage) généré. Parce que même avec un non-circulation de l'Internet soit phrases générées une fois formé, ne peut pas éviter les conséquences des « données discrètes », le vrai sens de ma jeunesse ignorance de blâme désolé, des données discrètes, nous devons parler de la continuité des données. Les données d'image est une donnée continue typique, donc GAN peut être généré directement à l'image réaliste. Nous prenons d'abord un coup d'il à la forme des données d'image:

Les données d'image dans l'ordinateur sont représentés comme une matrice, et si la valeur des éléments de la matrice d'image en noir et blanc est la valeur de pixel ou de gris (profane désolé, je ne fais pas l'image), même si elle est une image couleur, image tenseur-à-dire payer plus une étape de représentation des canaux RVB, la matrice d'image est un élément dérivable, qui reflète directement la valeur de l'image elle-même luminosité, la couleur et d'autres facteurs, bon nombre de ces pixels sont combinées pour former une image, soit , à l'image de la matrice d'image, ne nécessite pas le « échantillonnage » (l'échantillonnage), un exemple plus vive: un logiciel de dessin dans la palette, comme illustré ci-dessous, vous venez de glisser sur la palette, les données d'image peuvent être sentir essentiellement les caractéristiques différentielles.

Les données de texte ne peuvent pas être les mêmes, les élèves savent faire le texte, en supposant que notre thésaurus taille (vocabulaire) est de 1000, puis à chaque fois que le mot apparaît à côté nous prédisons devrait obtenir est un chaud de vecteur, le vecteur a 999 est 0, 1 est le seul, et celui-ci représente un thésaurus de mots. Cependant, l'écart réel est que chaque fois que nous utilisons un classificateurs résultat direct de tout réseau de neurones ou obtenir, est une des distributions de probabilités 1000 dimensions, plutôt que d'être bon est un chaud dans le vecteur, même avec un softmax sortie, au plus, seulement obtenus sur un particulier de grandes dimensions, les dimensions restantes particulièrement faible, et la transition vers cette sortie, puis un index de vecteur à chaud correspondant au mot d'interrogation à partir du lexique, par exemple opération est appelée « échantillonnage », habituellement, nous trouvons la valeur maximale d'un ensemble qui est 1 et 0.

méthodes d'optimisation actuelles sont principalement basées sur gradient de réseau de neurones (gradient basé), beaucoup de littérature pour dire: GAN face à des données discrètes, le réseau ne peut pas déterminer le gradient Rétropropagation (BP) pour générer un réseau. Cette phrase était donc je vais attendre d'entendre brumeuse, souhaitera peut-être changer un point de compréhension, nous le savons, les méthodes d'optimisation basées sur les gradients quelque chose en général moyenne comme celui-ci, le réseau des paramètres de réglage (poids), ont un regard sur les résultats de la sortie finale ne deviennent pas mieux, nous n'avons pas atteint le meilleur des cas.

Mais discriminateur D est le résultat obtenu après échantillonnage, qui est, après que nous affiner les paramètres, même si la sortie softmax optimisé un peu, comme l'exemple ci-dessus, le résultat correct devrait être le troisième, de sa production avant-dernier devient 0,65 de 0,85, le troisième terme devient 0,32 de 0,12, mais après l'échantillonnage, la sortie du générateur de résultat ou le G exactement comme avant, et entrez de nouveau la même réponse au discriminateur D à nouveau, cela est déterminé D donne l'évaluateur sera générateur de sens, la formation G perd direction.

Certaines personnes disent, il est donc préférable de diriger chaque manger un discriminateur D résultats précédents d'échantillonnage, qui est la distribution de sortie softamx, de même, ont un gros problème. Nous revenons au principe de base du discriminateur GAN, esprit D, qui est en cours de formation afin d'identifier avec précision l'échantillon et générer échantillon réel, l'échantillon est de générer une distribution complète de décimales float, et vrai échantillon est un vecteur One-chaud, discriminateur D est facile à « tricher », il n'a pas de déterminer si la distribution est générée plus proche de la vraie distribution, il n'a besoin que d'identifier la distribution n'est pas en plus d'un 1, le reste est 0 dessus. Donc, si la distribution de l'échantillonnage avant, peu importe à quel point le vecteur réel One-chaud, aussi longtemps qu'il est encore une distribution de probabilité peut être discriminé D est facilement détectée.

Bien sûr, les raisons mentionnées ci-dessus sont expliqués sur les mathématiques, rappelez-vous 2.1 le temps du Festival, s'il vous plaît noter que la perte échantillon produit de quels critères peut-on mesurer? Oui, c'est la divergence JS,

En fait, il y a une faiblesse dans l'application (ref. ), qui normalement ne peut être appliqué à deux distributions se chevauchant mutuellement (recouvrement), et lorsqu'ils sont confrontés à deux distributions P et Q ne se chevauchent pas, ce qui divergence JS:

Nous détrompez-vous, à moins que la sortie softmax de bidon un échantillon réel exactement la même distribution de chaleur unique (Vector one-hot) (bien sûr, ce n'est pas possible), ce que les échantillons réels La distribution de l'échantillon permet la génération de chevauchement il? Donc, peu importe comment faire l'optimisation à base Builder gradient, distribution réelle de la production et de la distribution

 Il est toujours

, Générateur sol Ainsi, la formation de sens.

3. Régime de transition: Pour la génération directe de texte pour une meilleure GAN

Pour résoudre le dilemme face à des données discrètes GAN, la manière la plus directe pour calculer l'idée d'une GAN interne réglage fin, ce calcul interne des améliorations directes GAN ont également montré un certain effet, il est directement derrière le GAN , appliqué en douceur pour générer du texte et d'autres données discrètes apporte de l'espoir. Ensuite, une brève introduction des deux liés au travail .

3.1. Wasserstein-divergence, des cadeaux supplémentaires

Wasserstein GAN (ci-WGAN), son influence semble avoir atteint un degré élevé de GAN d'origine, le pays aura également une influence considérable sur son blog - « Etonnamment Wasserstein GAN » , mais en regardant avant ce document, mais également recommander un autre document « f-GAN » , l'utilisation du papier Fenqie Er conjugué (conjugué Fenchel) la nature de la preuve de tout

Il peut être utilisé comme dans le GAN d'origine

 (Ou

) Alternative. f-GAN défini comme suit:

formule

Il est appelé fonction f Il doit répondre aux exigences suivantes:

Facile à voir,

aussi

A, description f-GAN offre une vaste gamme de plusieurs dizaines

, Suivi par des améliorations le long de cette direction a apporté des possibilités infinies pour le GAN.

Wasserstein GAN GAN est également des améliorations au remplacement

 Cet angle améliorations GAN, référence peut être la beauté grande et détaillée du document , en général, WGAN utilise un unique, divergence - "bulldozer -Divergence",

Les deux distributions sont considérées dans deux bulldozers, Divergence est la distance totale calculée pour transporter deux monticules de terre poussé dans la même forme souhaitée. suit la figure:

utilisation

 La formation par rapport à la GAN GAN d'origine a un processus « d'évolution » plus évident, en d'autres termes, WGAN par rapport à plus de formation pour mettre en évidence de « mauvais » à « bon » et GAN de progressive et à travers le processus. De ce qui précède 2.2 Festival, nous savons divergence JS Dans la face du boîtier de répartition deux ne se chevauchant pas, « anormal » se produit, les calculs sont

 , Processus de formation GAN, aussi, peut-être pour un processus de formation tout au long, divergence JS La valeur de retour est

 Lorsque seulement atteindre un certain point critique, il va soudainement optimisé pour des résultats proches de la valeur optimale, et divergence Wasserstein La valeur de retour aura beaucoup de lissage.

maintenant divergence Wasserstein Capable de surmonter divergence JS La faiblesse, utilisez Wasserstein GAN Générateur d'absorption directe sol  couche de sortie softmax de One-chaud distribution des vecteurs échantillons réels vectorielles, par discriminateur  Identifié, même si le discriminateur Pas assez stupide pour être vraiment « trompeur », mais la sortie du générateur à chaque fois plus proche de l'échantillon réel de « progrès » a pu finalement transmis en arrière, assurant ainsi la formation de combat pour les données discrètes peuvent continuer. cependant Wasserstein GAN Le GAN d'origine pour un look plus ambitieux à l'importance de l'amélioration, et non se concentrer sur le traitement des données expérimentales discrètes sont données au sujet de la génération de texte, etc., mais plutôt une suite « L'amélioration de la formation des Wasserstein GAN » spécifiquement le texte expérimental qui est généré peut être vu à partir des résultats, WGAN généré texte, bien que beaucoup moins que l'effet actuellement la plupart des bovins X de génération de texte, mais en tout cas peut être généré en unités de caractère dans un certain look peu normale légèrement les résultats, en revanche, GAN génèrent des résultats pour la production de texte est clairement l'effondrement.

3.2. Gumbel-softmax, échantillonnage du softmax analogique

Un autre document de l'Université de Warwick, Université de Cambridge + GAN pour améliorer le travail du centre de gravité pour les données discrètes générées sur la sortie modifié softmax cet égard. comme 2.2 Section, les opérations d'échantillonnage

Softmax fonctionner extraction de sortie discrètes successives en une sortie en forme, ayant pour résultat la production finale d'échantillonnage ne sont pas différentiables, forment le plus grand obstacle pour les données discrètes produites GAN, depuis pas de temps d'échantillonnage, la sortie ne se chevauchent pas avec la distribution réelle, résultant en divergence JS Restez dans une valeur fixe

Si utilisé des mots d'échantillonnage, la sortie normale des données discrètes et provoque le gradient rétropropagation des barrières naturelles.

Cela étant le cas, les auteurs constatent qu'une grande copie peut SOFTMAX échantillonnage des effets spéciaux, de sorte que les deux la sortie directe SOFTMAX assurer un chevauchement avec la distribution réelle, mais aussi pour éviter d'endommager l'opération d'échantillonnage qui caractéristique différentiables. Il est le « Gumbel -softmax » (Gumbel-Softmax), Gumbel-Softmax a déjà été appliqué à la redistribution de la balise discrète de (Catégorique Reparamétrer), dans l'opération d'échantillonnage d'origine,

La fonction softmax est convertie en un courant de sortie de vecteur Un chaud:

Le Gumbel-Softmax omis

 +

 Cette étape peut être donnée directement à la sortie de l'opération d'échantillonnage d'environ:

Essence est « paramètre d'inversion » qui

 quand

Lorsque la distribution est équivalent à la sortie de formule

+

 Distribution d'échantillonnage donné, et quand

 Lorsque la sortie est proche de formule uniformément répartis, et

 Comme il est un spécial softmax les hyper-paramètres, étant donné une grande valeur initiale, devient progressivement plus petite grâce à la formation d'apprentissage, proche de 0, cette partie du document en lecture détaillée .

tentatives expérimentales pour utiliser le papier uniquement avec le Gumbel-Softmax GAN est effectuée pour générer une longueur fixe grammaire hors-contexte 12 de la séquence, la formation n'est pas visible effondrement GAN, dans quelques exemples ont également été assez réaliste effet.

Ainsi, pour GAN améliorations directes pour la production de texte, bien qu'il soit atteint un certain succès, mais encore de la résistance à l'état idéal et longue route, il n'y a pas de meilleure façon de le faire? Bien sûr!

4. RL dans le rôle de génération de texte GAN joué par

4.1. Apprentissage par renforcement sur les potins potins

Apprentissage par renforcement (apprentissage par renforcement, RL) en raison de son avant-garde approche de l'apprentissage, c'est l'apprentissage mieux supervisé est entièrement automatisé afin de mettre en uvre facile, et la courbe d'apprentissage est trop long dans de nombreuses applications pratiques, il n'a pas devenir l'objet d'une grande attention, jusqu'à ce que Go du chien apparaît, il a attiré l'attention de beaucoup de gens.

Comme il est un problème d'optimisation, je pense très directement à l'aide des méthodes d'optimisation de gradient (gradient) basé résolu. Bien sûr, dans l'apprentissage de renforcement, nous voulons obtenir est la stratégie optimale

Ce processus sera dans le domaine de l'apprentissage de renforcement souvent entendre Politique Gradient . nous RHS

Le terme appelé séparé

Il représente la récompense quand trouver les paramètres optimaux obtenus le modèle de dialogue souhaité. En vrai faisant, définir une phrase de réponse ont $ N possibilités de $, chaque dialogue de groupe

La probabilité peut être considérée uniformément répartie, il peut également être modifié comme suit:

En conséquence, le centre de l'optimisation du gradient de gravité transformé en la génération de probabilité de dialogue, qui est-à-dire par les paramètres

 modèle mis à jour récompensera a tendance à augmenter la probabilité d'apparition de la conversation de haute qualité, et a puni le modèle tend à réduire la probabilité d'occurrence d'un dialogue de qualité médiocre.

Depuis AlphaGo fait l'apprentissage par renforcement soudain entré dans l'opinion publique depuis, des études plus théoriques de l'apprentissage de renforcement joueront une plate-forme expérimentale importante, ce qui est déraisonnable, l'apprentissage par renforcement dérivation théorique semble couramment logique, mais sa plus grande faiblesse est que , récompensé récompense du jugement humain basé sur, si expérimentateur attendu à l'avant des broches d'ordinateur sur les résultats du modèle semble être irréaliste de ne pas marquer l'arrêt, le système de jeu pourrait bien donner le score objectif correct (victoire / perte ou jeu Score). basé sur RL Le dialogue sera également générer Confronté à ce problème, les chercheurs ont utilisé une implémentation AlphaGo similaire (joueurs d'échecs AI) - deux robots fonctionnent simultanément, de sorte qu'ils se parlent entre eux, en même temps, l'utilisation de pré-formation (pré-formation) bon les « points » sur les points bonus sont donnés pour chaque dialogue de groupe

 , A propos de la pré-formation « marquant un » R, être fondée sur l'application réelle et bricolage leurs propres besoins.

Sentez-vous un peu RL  effet ChatBot:

4.2. SeqGAN et conditionnelle SeqGAN

Cela dit précédemment, finalement marqué le début à l'apogée: RL + GAN pour texte génération, SeqGAN support prédécesseurs RL  Texte génération sur l'épaule, on peut dire GAN pour le texte Génération du chef d'oeuvre. Bien que ce qui précède passé beaucoup de longueur au sujet RL  Divers mécanismes ChatBot, en fait, il est pour ouvrir la voie. Imaginez que nous utilisons le discriminateur GAN Comme un apprentissage par renforcement de récompense sources de récompense, en supposant que la longueur nécessaire pour générer une séquence de texte T, la valeur des prix pour la génération de texte

Le calcul peut être transformé en la forme suivante:

jusqu'à ce générateur sol assez de texte généré à la vraie chose quand le temps est mis à jour lorsque de nouvelles arbitre de la formation. En général, le discriminateur Générer une séquence de scores de jeu qui détermine à la fois la probabilité de la véritable séquence d'échantillons, d'après la théorie de GAN original, discriminateur Résultats pour identifier les échantillons réels / faux sont donnés 0,5, un générateur de sous-titres sol Lorsque suffisamment d'échantillons générés parasites, puis si les tâches ci-dessus, pour produire un échantillon est déterminée à plusieurs reprises joué est proche de 0,5 ou score encore plus élevé, à savoir discriminateur décrits Le besoin de recyclage. Après avoir fait réel pour plus de commodité, le générateur général des tours de formation d'attente, une fois formés classificateurs.

Il y a une autre application d'un champ magique génération d'images GAN GAN --Conditional , les conditions de GAN GAN SeqGAN proposé pour générer le dialogue (Chatbot) complété la literie importante, literie jouent également un rôle par définition est générée sur la base de certaines conditions certaines choses, en fonction des conditions de travail telles que décrites dans l'entrée de texte, génère une image correspondant à, par exemple:

Le dialogue peut être comprise comme la génération du même modèle, comme condition d'un dialogue, le prochain était les données de réponse à générer, la seule différence est la nécessité de générer des données de texte discrètes, et ce problème, SeqGAN ont aidé. En résumé, je lui donne son nom: sous condition SeqGAN . selon 4.1 Dérivation de la présente section et de la section, l'optimisation de gradient conditionnelle SeqGAN peut être écrit:

Pas difficile de voir, avec cette formule 4.1 section gradient est un seul mot, seuls les bonus de « points » sur le score donné par

 Remplacé par un discriminateur pense que la probabilité de générer un dialogue de scores en direct

. Il peut sembler une petite différence, en fait, RL + GAN  techniques de génération de texte basée uniquement sur RL La technologie de génération de texte essentiellement différent: dans le dialogue d'apprentissage de renforcement généré dans l'original, bien que l'utilisation de l'intelligence artificielle se parler, et ensemble scoring jugle, mais cette jugle est pré-formé dans le processus de formation du dialogue entre les modèles les changements ne se produisent pas; RL + GAN La génération de texte et même le modèle de dialogue est différent, discriminateur et générateur sol mise à jour de la formation en alternance, changement, et donne donc des points bonus discriminateur Voici dynamique (dynamique).

RL + GAN une meilleure utilisation des mécanismes de récompense et d'apprentissage Politique Gradient  La technologie, habilement évité lorsque gradient de données discrètes GAN ne peut pas faire face au problème de BP, dans la méthode utilisant la formation d'apprentissage par renforcement Builder sol L'écart, mais aussi l'utilisation de la méthode originale de formation discriminateur contre l'apprentissage . Dans les résultats du modèle vedette conditionnel SeqGAN du dialogue, RL + formation GAN pour obtenir le générateur peut revenir souvent une réponse réaliste réelle similaire (je vraiment juste une proche de faible à « La vallée de la peur » sensation).

Les détails de certains étendent +

Au-dessus, sauf que les principes de base RL + GAN de génération de texte, nous savons que de nombreuses incertitudes existence GAN d'un cours de l'opération proprement dite, afin d'optimiser l'effet de génération de texte GAN, autant que possible, puis d'explorer plus en GAN le champ potentiel de la PNL, il y a quelques détails dignes de mention.

5.1 Récompense de base :. Bias sur la valeur de récompense

5.2 REGS :. Une personne quand une erreur

lecteur attentif peut être trouvée dans SeqGAN formule optimisé pour le calcul de dérivation de récompense par discriminateur Générer des points bonus donnés échantillon est en fait un processus de génération de séquence de texte conforme, mot par mot généré formule dérivée avant de pouvoir voir le spectacle pour la valeur des prix de séquence en partie du texte, puis en moyenne la somme. Cependant, dans les expériences initiales, gradient optimisée est calculée en fonction de la valeur finale des lots dérivée, discriminateur Être formé pour générer un score de phrase pour évaluer les résultats, dans ce cas, un discriminateur Notation pour la séquence générer dans chaque jeton est égal à exister, pour vous récompenser avec prime (valeur de bonus peut être considéré comme le même), pour punir punir ensemble, cette approche conduira à une conséquence, regardez l'exemple suivant.

Par exemple, il y a un tel groupe de dialogue (contenant des réponses réelles et générer des réponses):

question = Real_answer = Fake_answer =

De toute évidence, le discriminateur Celui-ci permet d'identifier facilement la réponse est fausse, est lié à donner une récompense très faible est des points de dollars, mais une comparaison attentive de la vraie / fausse réponse se trouve en deux, le premier mot « je » est en fait un mot et le premier échantillon est réel le même, et le dernier caractère. « » en fait, il ne pouvait pas faire du mal, ils sont en fait pas mal, vraiment mal est « non » et « savoir » ces deux mots, mais malheureusement, le discriminateur détermine que fake_answer  La réponse globale est fausse, les termes innocents d'origine dans le « I » et « » devraient être punies ainsi que la détermination à faible score.

5.3 MC Recherche & discriminateur pour Decoded partiellement Sequences :. précision et la vitesse Choix

. 5.4 Maître Obliger: un modèle de rôle pour générateur

Avant de commencer à expliquer Maître Obliger SeqGAN le premier à aider les gens à prendre simplement sur les deux types de mode RNN run: (1) mode en cours d'exécution libre; (2) Mode Maître-Forcing ... Le premier est le mode de fonctionnement normal RNN: un état de la sortie est utilisée comme entrée à l'étape suivante, il y a le risque de le faire, parce que dans les premiers jours, l'avant de l'état de formation RNN si un résultat très pauvre, donc tous derrière l'État sera affecté, de sorte que le résultat final est très mauvaise, il est traçable difficile à la source de l'erreur est survenue, et cette dernière approche en mode Maître-Forcing est, chaque sortie n'est pas utilisé comme entrée d'un état dans un état de , mais directement utilisé en tant qu'entrée à l'état suivant correspondant à la réalité de terrain.

Prenez modèle Seq2Seq, par exemple, nous supposons que la sortie positive à la troisième, quatrième génération prêt:

entrée = output = label =

décodeur sera sous le mode en cours d'exécution libre troisième sortie d'erreur sortie = 's' Le troisième élément (index commence à partir de 0) comme entrée de l'état suivant, et dans le mode de forçage enseignant, le décodeur corrigera les échantillons étiquette = 'q' Comme l'entrée à l'étape suivante. Bien sûr, ce faisant a aussi ses inconvénients, car dépendant des données d'étiquette, lorsque la formation aura de bons résultats, mais au moment de l'essai ne peut pas être pris en charge par la vérité au sol de la. Le meilleur résultat est que le mode en cours d'exécution libre de comportement formé près en mode forçage des enseignants autant que possible, le professeur Obliger en utilisant l'essai GAN pour atteindre cet objectif.

Bien sûr, ceux-ci sont à côté du point, nous allons revenir au mode Enseignant-Forcing motivation initiale: la formation (itération) au début RNN très faible, à peine donner de bons résultats générés (que l'irrigation coupure de chute brisée, la production de la production de déchets influence derrière l'état), nous devons compter sur la vérité du terrain escorté de force loin, peut lentement sur la bonne voie.

SeqGAN aussi il y a un problème, un générateur de démarrage sol Très faible, même après un certain nombre de pré-formé, générant presque le résultat pas bon, le mauvais résultat au discriminateur Seul le retour inévitable à une faible récompense (punition), le générateur sol La formation ne peut être basé notation pour optimiser le discriminateur ne peut pas être guidé par le bon exemple, et ne sait jamais ce qui est un bon résultat, le résultat inévitable est un cercle vicieux. Ainsi, il est nécessaire de générer une formation en SeqGAN sol échantillons réels d'orientation, qui est, dit le constructeur: « Quel genre d'échantillons méritent une récompense score élevé »

5.5 Acteur-critique :. GAN sur plus largement?

Un des articles de type semi-examen dans DeepMind de , le parlé d'un autre modèle spécial --Actor-critique apprentissage de renforcement et d'analyser les liens entre ce modèle et GAN.

Regardez d'abord de nous au discriminateur GAN et générateurs sol La fonction objectif d'optimisation:

Permettez-moi de dire l'apprentissage de renforcement, l'apprentissage de renforcement dans l'itération basée sur des règles, la stratégie d'action actuelle en essayant d'obtenir récompense de l'environnement et mettre à jour la politique. Cette opération est très efficace dans l'environnement de laboratoire de jeu, parce que le jeu a un système fermé et l'environnement clair, il peut être stable objectivement donnée selon diverses récompenses de la correspondance reçue de l'action, mais dans la vraie vie, beaucoup de temps et clairement pas fermé environnement, étant donné que l'action doit être lui-même récompense est pas exacte, ne peut être obtenue en réglant la notation DIY est évidemment très difficile de faire un modèle parfait des situations du monde réel de constante évolution.

modèle GAN sera décrite comme une forme spéciale de acteur-critique, et de comparer les caractéristiques et technique améliorée ultérieure respectives adaptées dans le cas des deux. Imaginez, puisque la technologie d'apprentissage de renforcement GAN pour aider à résoudre le problème de la propagation de gradient sur des données discrètes, alors même afin de renforcer l'apprentissage contradictoire acteur-critique permet également la génération de texte est une autre possibilité.

5.6 IRGAN :. Retrieve deux modèles concurrents

IRGAN Ce travail a été publié en 2017 SIGIR, du point de vue de l'auteur, il n'est pas destiné à une gamme d'uvres extraordinaires, qui contiendra la SeqGAN distribution originale, l'auteur va générer des idées contre les réseaux utilisés dans la recherche d'information , mais ne respectent pas le cadre traditionnel GAN classique, mais d'utiliser le modèle dans deux zones IR de grandes existent déjà: formule du modèle IR  et modèle discriminante IR .

objectif de formule modèle IR est de générer une requête - >  Pertinence document distribué par la distribution des résultats de recherche de retour liés à chaque entrée de requête et discriminantes ressemble modèle IR plus comme un classificateur de seconde classe, son objectif est possible de distinguer les requêtes associées < query_r, document_r > Et sans rapport avec la requête < query_f, document_f > Pour une requête donnée sur < requête, documents > , Le modèle discriminante IR donne deux degrés d'association de la paire de requête.

Une caractéristique majeure IRGAN est contre le modèle des deux ensembles chacun est une sorte de modèle IR, donc après la formation de combat, peu importe d'où, il y a espoir de briser le goulot d'étranglement de l'original. Les auteurs ont également sur la formation IRGAN réunit nos échantillons associés associés à l'échantillon, observée ou non observée équilibre de Nash font une discussion, bien qu'il soit difficile d'obtenir que l'on appelle une réelle pertinence dans la distribution des applications de recherche réelle, mais les auteurs croient, sortie du modèle IR est toujours déterminé et générer une sortie correspondante du modèle IR, il existe une force de corrélation positive, également né de la flottabilité du papier analogie un peu obscur et faites glisser sur le poids flottant finit par atteindre un état d'équilibre.

épilogue

Le développement rapide de ce domaine, peut-être dans le temps que je termine ce blog, un groupe de travail de brouillage à émerger, mais le résultat final est certainement plus que cela, je ne sais pas comment bien à la fin, peut-être attendre pour GAN pour moi, il nous a apporté une fin merveilleuse.

reconnaissance

remerciements spéciaux CHANG Taiwan professeurs d'université enseignent vivant , qui a une aide importante pour moi de comprendre aux points de connaissances multiples.

référence

Il Yongcan RPSC. Génération de texte Fun . Http://geek.csdn.net/news/detail/131622.

Ashwin, K, Vijayakumar, Michael, Cogswell, Ramprasath, R, Selvaraju, Qing, Sun, Stefan, Lee, David, Crandall, Dhruv, Batra Diverse faisceau Recherche :. Décodage diverses solutions de modèles Neural séquence . Https://arxiv.org/abs/1610.02424v1.

Minh-Thang, Luong, Hieu, Pham, Christopher, D, Manning. Approches efficaces At-tention basé Neural traduction automatique . Https://arxiv.org/abs/1508.04025.

W. Chan, N. Jaitly, Q. Le et O. Vinyals, "Ecoute, assistez et sort: Un réseau de neurones pour une grande reconnaissance vocale conversationnelle vocabulaire," ICASSP 2016, https://research.google.com /pubs/pub44926.html.

Jiwei, Li, Minh-Thang, Luong, Dan, Jurafsky. Un hiérarchique Neural Autoencoder pour Par-agraphs et documents . Https://arxiv.org/abs/1506.01057.

Zheng Huabin de PM à GAN -. LSTM père de 22 ans à travers Schmidhuber Yuannian . Https://zhuanlan.zhihu.com/p/27159510?utm_source=zhihu&utm_medium=social.

Jürgen, Schmidhuber. apprentissage factoriels des codes postaux par Prévisibilité Minimisation . Calcul neuronal, 1992, 4 (6): 863-879,

Ian, J, Goodfellow, Jean, Pouget-Abadie, Mehdi, Mirza, Bing, Xu, David, Warde-Farley, Sherjil, Ozair, Aaron, Courville, Yoshua, Bengio. génératives accusatoires Networks . Https://arxiv.org/abs/1406.2661v1.

Samuel, R, Bowman, Luke, Vilnis, Oriol, VINYALS, Andrew, M, Dai, Rafal, Jozefowicz, Samy, Bengio. Les phrases à générer à partir d'un espace continu . Https://arxiv.org/abs/1511.06349.

Zhenghua Bin. Etonnamment Wasserstein GAN . Https://zhuanlan.zhihu.com/p/25071913.

Ishaan, Gulrajani, Faruk, Ahmed, Martin, Arjovsky, Vincent, Dumoulin, Aaron, Courville. Amélioration de la formation de Wasserstein GAN . Https://arxiv.org/abs/1704.00028.

Matt, J, Kusner, José Miguel, Hernandez-Lobato. GANS pour des séquences de discrets ELE-ments avec la distribution Gumbel-softmax . Https://arxiv.org/abs/1611.04051.

Martin, Arjovsky, Soumith, Chintala, Léon, Bottou. Wasserstein GAN . Https://arxiv.org/abs/1701.07875v1.

Sebastian, Nowozin, Botond, Cseke, Ryota, Tomioka f-GAN :. Formation générative Neural échantillonneurs utilisant Variational Divergence Minimisation . Https://arxiv.org/abs/1606.00709.

Eric, Jang, Shixiang, Gu, Ben, Poole. Catégorielles Reparamétrer avec gomme-bel-Softmax . Https://arxiv.org/abs/1611.01144.

Jiwei, Li, Will, Monroe, Alan, Ritter, Michel, Cuisine, Jianfeng, Gao, Dan, Jurafsky. Apprentissage profond Renforcement pour le dialogue Génération . Https://arxiv.org/abs/1606.01541v3.

Lantao, Yu, Weinan, Zhang, Jun, Wang Yong, Yu SeqGAN :. Séquence générative Adver-sarial Nets avec la politique de dégradé . Https://arxiv.org/abs/1609.05473.

Mehdi, Mirza, Simon, Osindero. Conditionnelle générative accusatoire Nets . Https://arxiv.org/abs/1411.1784.

Scott, Reed, Zeynep, Akata, Xinchen, Yan, Lajanugen, Logeswaran, Bernt, Schiele, Honglak, Lee. Générative accusatoire texte à l'image de synthèse . Https://arxiv.org/abs/1605.05396.

Jiwei, Li, Will, Monroe, Tianlin, Shi, Sébastien, Jean, Alan, Ritter, Dan, Jurafsky. Adver-sarial d'apprentissage pour le dialogue Neural Génération . Https://arxiv.org/abs/1701.06547.

Argent, D;. Huang, A;. Maddison, C. J;.. Guez, A;. Siphré, L;. Et al 2016. La maîtrise du jeu

. De go avec les réseaux de neurones profonds et la recherche d'arbres Nature 529 (7587): 484-489,

Williams, RJ et Zipser, D. (1989). Un algorithme d'apprentissage pour faire fonctionner en permanence les réseaux de neurones entièrement récurrents. De calcul Neural, 1 (2), 270-280, abs / 10,1162 / neco.1989.1.2.270.

Alex, Lamb, Anirudh, Goyal, Ying, Zhang, Saizheng, Zhang, Aaron, Courville, Yoshua, Bengio Professeur Obliger :. Un nouvel algorithme de formation Réseaux récurrents . Https://arxiv.org/abs/1610.09038v1.

David, Pfau, Oriol, Vinyals. Connexion générative accusatoire Réseaux et méthodes Ac-tor-Critic . Https://arxiv.org/abs/1610.01945.

Jun, Wang, Lantao, Yu, Weinan, Zhang, Yu, Gong, Yinghui, Xu, BENYOU, Wang Peng, Zhang, Dell, Zhang IRGAN :. Un jeu Minimax d'information sur Unifying générative et discriminante Retrieval modèles . Https://arxiv.org/abs/1705.10513v1.

Hungyi, Lee. Machine Learning et ayant profondément et structuré . Http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS17.html.

2017 nouvelle année remplie machine « nouvelle »! Toss toss une autre année
Précédent
Juste pour dépenser 100 yuans, ne pas acheter le matériel que vous grosse perte
Prochain
La poursuite de l'individualité, et non pas cher! 6700K + 1070 Core i7 console de jeu
La machine n'apprend pas: Ian Goodfellow, votre niveau de GAN je marque
Nouvelles informatiques Nanjing 2017 réunion d'automne sera compilé le recrutement de lecture, Bienvenue!
La machine n'apprend pas: les choses Meng Builder: Comment GAN fabriqué en utilisant quatre chats carte
« Un millier de Wan Lumière » Communauté tour le plateau couvert de neige: la première rénovation du village terminé
La vie privée est très important! Ces façon Cryptage Vous le feriez?
Trouvé une boîte sous le lit en dehors pour voir ce qui est pertinent et rouge
la tentation du jeu 7.1, l'examen du casque Logitech G433
Sont la capacité 16G, mémoire, acheter quelques-unes des plus appropriés? Bien sûr, est de ne pas double-Ning unique
AMD ligne de 7 nm d'attaque: 63 sur noyau dur dacentrurus 12 fils
Pour l'hôte nouvellement installé: vidéo contenant droit à la lentille côté châssis grande, refroidir la pollution lumineuse
Puissance 350W est plus que suffisant, une foule de test de consommation de titane