La machine n'apprend pas: pour renforcer l'apprentissage joue le r�le dans la g�n�ration contre le texte de r�seau de nouvelle g�n�ration

https://zhuanlan.zhihu.com/p/29168803

1. de base: la g�n�ration d'un cadre de texte mod�le standard

Cr�ation d'un texte (Texte g�n�ration) par L'apprentissage machine, traitement du langage naturel + �Essayez de faire la technologie AI a la capacit� d'exprimer la langue au niveau humain, dans une certaine mesure, le niveau actuel de d�veloppement capable de r�agir le traitement du langage naturel.

La description qui suit avec minimaliste pr�sentent g�n�ralement en technique de g�n�ration de trame de texte, en particulier se r�f�rer aux diff�rents documents de r�seau (par exemple: RPSC Blog classique � g�n�ration de texte fun � ), papier et autres.

Le texte g�n�r� par la t�che, le plus populaire sont: la traduction automatique, la g�n�ration de phrase, g�n�rer le dialogue, etc. Cet article se concentre sur les deux derniers. Texte g�n�rateur bas� sur le cycle d'apprentissage en profondeur est g�n�ralement r�alis�e � l'aide de r�seaux de neurones de mod�lisation s�mantique (base RNN, LSMC, GRU, etc.). Dans la t�che de g�n�ration de phrase, une application commune: � Char-RNN � (ici, � Char � est le titre au sens large, cela peut signifier un caract�re, un mot, ou d'autres unit�s de la taille du texte), mais la base est simple r�action de clart� phrase g�n�r�e par les processus en cours d'ex�cution, vous devez d'abord de cr�er un th�saurus vocab Contient tous les caract�res ou des mots qui peuvent surgir, chaque mod�le pr�dit mots appara�tront phrase suivante, vous savez sortie softmax est seulement une distribution de probabilit�, son th�saurus dimension vocab �La taille, doit �tre soumis � la fonction de distribution de probabilit� de sortie converti par Un chaud �vecteur, th�saurus vocab r�sultats r�cup�r�s correspondant � un terme, quand la formation du mod�le � Char-RNN �, en utilisant une fen�tre glissante dans le corpus, et imm�diatement apr�s le contexte des caract�res dans la fen�tre avec un ensemble d'�chantillons d'apprentissage et les �tiquettes, respectivement, chacun en fonction d'une taille de pas fixe pour d�river l'ensemble fen�tre coulissante � �chantillon - appellation � paire.

Sentence g�n�rer des t�ches similaires, cr�er un dialogue dans les groupes de dialogue comme un � �chantillon - Label � Oui, r�seau de neurones r�currents RNN_1 Dialogue codage de ce qui pr�c�de, puis une autre boucle r�seau neuronal RNN_2 Soyez mot d�cod� par mot, et au moins une sortie d�cod�e du neurone en neurone d'entr�e de d�codeur g�n�re le dialogue ci-apr�s, notez que: avant le d�codage n�cessaire de configurer � D�marrer � _ Flag pour ordonner au d�codeur D�codeur son tour, g�n�re le premier mot (ou mots) Dialogue Ci-apr�s, la configuration et � Fin � _ Marqu� pour indiquer la fin de d�codeur le processus en cours de g�n�ration de texte.

Ceci est la forme de base du cadre bien connu � Seq2Seq �, afin d'am�liorer l'effet de la Seq2Seq bas�e sur un mod�le avec un tel angle directement � partir du d�codeur Beam-Recherche D�codeur , m�canisme de l'attention �D�codeur (m�canisme d'attention du d�codeur dispos�) ou analogue, afin d'am�liorer, mais � partir de la structure du r�seau de neurones, il y a par exemple pyramidal RNN (pyramide RNN), hi�rarchique RNN codeur (codeur de cycle de r�seau hi�rarchique ) et d'autres am�liorations. D'innombrables am�liorations, pas un d�tails de donner, mais peu importe, le r�sultat de pr�diction de sortie est toujours une distribution de taille de lexique dimension de probabilit�, la s�lection de la n�cessit� indice au maximum, au th�saurus vocab mot correspondant (ou caract�re) pour obtenir des r�sultats.

2. Probl�me: GAN pourquoi ne peut pas �tre utilis� directement pour la production de texte

2.1. Bases de GAN

GAN pour tout le monde doit avoir �t� populaire, et ici pour faire une simple examen. GAN Structurellement intelligemment simples (bien qu'il existe d'autres travaux classiques avec des litiges similaires Id�e ), est �galement tr�s facile � comprendre, tout le mod�le ne comporte que deux composantes: un g�n�rateur G, 2 D ... discriminateur En fait, le mod�le a g�n�r� beaucoup de temps, de sorte que le g�n�rateur est pas nouveau, le g�n�rateur cible G est de g�n�rer une fausse r�partition de l'�chantillon le plus proche de l'�chantillon r�el, sans au pr�alable discriminateur D, le g�n�rateur repose sur la formation de chaque it�ration renvoie la diff�rence entre l'�chantillon de courant et g�n�rer un �chantillon r�el (cette diff�rence est convertie en perte) pour optimiser les param�tres, et le discriminateur de lev�e D modifi� ce discriminateur cible D est d'identifier le plus fid�lement possible de g�n�rer un �chantillon et l'�chantillon r�el, et ensuite form� sur le g�n�rateur de cible G � pour g�n�rer - diff�rence �chantillon r�el � devient minimis� par la capacit� � identifier un affaiblissement possible du discriminateur D (qui comprend le moment de la sortie D de la fonction objectif est d�termin�e de la formation). mod�le GAN-cadre g�n�ral comme indiqu� ci-dessous:

2.2. Des difficult�s face GAN lorsque les donn�es discr�tes (ce qui est des donn�es discr�tes?)

GAN d�s que l'auteur de l'article original de mentionner quand , GAN applique uniquement pour g�n�rer des donn�es continues, donn�es insuffisantes pour un effet discret (de sorte que deux du GAN moment de vedette dans le domaine de la PNL a �t� incapable d'aller au-del� du mod�le d'une autre g�n�ration un grand fr�re VAE ). Les donn�es texte sont le plus genre typique de donn�es discr�tes, o� le soi-disant discret, ne veut pas dire: le mot de texte pour la composition de texte, ou que le cadre le plus populaire de g�n�ration de texte, tels que Seq2Seq, sont �galement par mot (ou individuellement personnage) g�n�r�. Parce que m�me avec un non-circulation de l'Internet soit phrases g�n�r�es une fois form�, ne peut pas �viter les cons�quences des � donn�es discr�tes �, le vrai sens de ma jeunesse ignorance de bl�me d�sol�, des donn�es discr�tes, nous devons parler de la continuit� des donn�es. Les donn�es d'image est une donn�e continue typique, donc GAN peut �tre g�n�r� directement � l'image r�aliste. Nous prenons d'abord un coup d'il � la forme des donn�es d'image:

Les donn�es d'image dans l'ordinateur sont repr�sent�s comme une matrice, et si la valeur des �l�ments de la matrice d'image en noir et blanc est la valeur de pixel ou de gris (profane d�sol�, je ne fais pas l'image), m�me si elle est une image couleur, image tenseur-�-dire payer plus une �tape de repr�sentation des canaux RVB, la matrice d'image est un �l�ment d�rivable, qui refl�te directement la valeur de l'image elle-m�me luminosit�, la couleur et d'autres facteurs, bon nombre de ces pixels sont combin�es pour former une image, soit , � l'image de la matrice d'image, ne n�cessite pas le � �chantillonnage � (l'�chantillonnage), un exemple plus vive: un logiciel de dessin dans la palette, comme illustr� ci-dessous, vous venez de glisser sur la palette, les donn�es d'image peuvent �tre sentir essentiellement les caract�ristiques diff�rentielles.

Les donn�es de texte ne peuvent pas �tre les m�mes, les �l�ves savent faire le texte, en supposant que notre th�saurus taille (vocabulaire) est de 1000, puis � chaque fois que le mot appara�t � c�t� nous pr�disons devrait obtenir est un chaud de vecteur, le vecteur a 999 est 0, 1 est le seul, et celui-ci repr�sente un th�saurus de mots. Cependant, l'�cart r�el est que chaque fois que nous utilisons un classificateurs r�sultat direct de tout r�seau de neurones ou obtenir, est une des distributions de probabilit�s 1000 dimensions, plut�t que d'�tre bon est un chaud dans le vecteur, m�me avec un softmax sortie, au plus, seulement obtenus sur un particulier de grandes dimensions, les dimensions restantes particuli�rement faible, et la transition vers cette sortie, puis un index de vecteur � chaud correspondant au mot d'interrogation � partir du lexique, par exemple op�ration est appel�e � �chantillonnage �, habituellement, nous trouvons la valeur maximale d'un ensemble qui est 1 et 0.

m�thodes d'optimisation actuelles sont principalement bas�es sur gradient de r�seau de neurones (gradient bas�), beaucoup de litt�rature pour dire: GAN face � des donn�es discr�tes, le r�seau ne peut pas d�terminer le gradient R�tropropagation (BP) pour g�n�rer un r�seau. Cette phrase �tait donc je vais attendre d'entendre brumeuse, souhaitera peut-�tre changer un point de compr�hension, nous le savons, les m�thodes d'optimisation bas�es sur les gradients quelque chose en g�n�ral moyenne comme celui-ci, le r�seau des param�tres de r�glage (poids), ont un regard sur les r�sultats de la sortie finale ne deviennent pas mieux, nous n'avons pas atteint le meilleur des cas.

Mais discriminateur D est le r�sultat obtenu apr�s �chantillonnage, qui est, apr�s que nous affiner les param�tres, m�me si la sortie softmax optimis� un peu, comme l'exemple ci-dessus, le r�sultat correct devrait �tre le troisi�me, de sa production avant-dernier devient 0,65 de 0,85, le troisi�me terme devient 0,32 de 0,12, mais apr�s l'�chantillonnage, la sortie du g�n�rateur de r�sultat ou le G exactement comme avant, et entrez de nouveau la m�me r�ponse au discriminateur D � nouveau, cela est d�termin� D donne l'�valuateur sera g�n�rateur de sens, la formation G perd direction.

Certaines personnes disent, il est donc pr�f�rable de diriger chaque manger un discriminateur D r�sultats pr�c�dents d'�chantillonnage, qui est la distribution de sortie softamx, de m�me, ont un gros probl�me. Nous revenons au principe de base du discriminateur GAN, esprit D, qui est en cours de formation afin d'identifier avec pr�cision l'�chantillon et g�n�rer �chantillon r�el, l'�chantillon est de g�n�rer une distribution compl�te de d�cimales float, et vrai �chantillon est un vecteur One-chaud, discriminateur D est facile � � tricher �, il n'a pas de d�terminer si la distribution est g�n�r�e plus proche de la vraie distribution, il n'a besoin que d'identifier la distribution n'est pas en plus d'un 1, le reste est 0 dessus. Donc, si la distribution de l'�chantillonnage avant, peu importe � quel point le vecteur r�el One-chaud, aussi longtemps qu'il est encore une distribution de probabilit� peut �tre discrimin� D est facilement d�tect�e.

Bien s�r, les raisons mentionn�es ci-dessus sont expliqu�s sur les math�matiques, rappelez-vous 2.1 le temps du Festival, s'il vous pla�t noter que la perte �chantillon produit de quels crit�res peut-on mesurer? Oui, c'est la divergence JS,

En fait, il y a une faiblesse dans l'application (ref. ), qui normalement ne peut �tre appliqu� � deux distributions se chevauchant mutuellement (recouvrement), et lorsqu'ils sont confront�s � deux distributions P et Q ne se chevauchent pas, ce qui divergence JS:

Nous d�trompez-vous, � moins que la sortie softmax de bidon un �chantillon r�el exactement la m�me distribution de chaleur unique (Vector one-hot) (bien s�r, ce n'est pas possible), ce que les �chantillons r�els La distribution de l'�chantillon permet la g�n�ration de chevauchement il? Donc, peu importe comment faire l'optimisation � base Builder gradient, distribution r�elle de la production et de la distribution

�Il est toujours

, G�n�rateur sol Ainsi, la formation de sens.

3. R�gime de transition: Pour la g�n�ration directe de texte pour une meilleure GAN

Pour r�soudre le dilemme face � des donn�es discr�tes GAN, la mani�re la plus directe pour calculer l'id�e d'une GAN interne r�glage fin, ce calcul interne des am�liorations directes GAN ont �galement montr� un certain effet, il est directement derri�re le GAN , appliqu� en douceur pour g�n�rer du texte et d'autres donn�es discr�tes apporte de l'espoir. Ensuite, une br�ve introduction des deux li�s au travail .

3.1. Wasserstein-divergence, des cadeaux suppl�mentaires

Wasserstein GAN (ci-WGAN), son influence semble avoir atteint un degr� �lev� de GAN d'origine, le pays aura �galement une influence consid�rable sur son blog - � Etonnamment Wasserstein GAN � , mais en regardant avant ce document, mais �galement recommander un autre document � f-GAN � , l'utilisation du papier Fenqie Er conjugu� (conjugu� Fenchel) la nature de la preuve de tout

Il peut �tre utilis� comme dans le GAN d'origine

�(Ou

) Alternative. f-GAN d�fini comme suit:

formule

Il est appel� fonction f Il doit r�pondre aux exigences suivantes:

Facile � voir,

aussi

A, description f-GAN offre une vaste gamme de plusieurs dizaines

, Suivi par des am�liorations le long de cette direction a apport� des possibilit�s infinies pour le GAN.

Wasserstein GAN GAN est �galement des am�liorations au remplacement

�Cet angle am�liorations GAN, r�f�rence peut �tre la beaut� grande et d�taill�e du document , en g�n�ral, WGAN utilise un unique, divergence - "bulldozer -Divergence",

Les deux distributions sont consid�r�es dans deux bulldozers, Divergence est la distance totale calcul�e pour transporter deux monticules de terre pouss� dans la m�me forme souhait�e. suit la figure:

utilisation

�La formation par rapport � la GAN GAN d'origine a un processus � d'�volution � plus �vident, en d'autres termes, WGAN par rapport � plus de formation pour mettre en �vidence de � mauvais � � � bon � et GAN de progressive et � travers le processus. De ce qui pr�c�de 2.2 Festival, nous savons divergence JS Dans la face du bo�tier de r�partition deux ne se chevauchant pas, � anormal � se produit, les calculs sont

�, Processus de formation GAN, aussi, peut-�tre pour un processus de formation tout au long, divergence JS La valeur de retour est

�Lorsque seulement atteindre un certain point critique, il va soudainement optimis� pour des r�sultats proches de la valeur optimale, et divergence Wasserstein La valeur de retour aura beaucoup de lissage.

maintenant divergence Wasserstein Capable de surmonter divergence JS La faiblesse, utilisez Wasserstein GAN G�n�rateur d'absorption directe sol �couche de sortie softmax de One-chaud distribution des vecteurs �chantillons r�els vectorielles, par discriminateur r� �Identifi�, m�me si le discriminateur r� Pas assez stupide pour �tre vraiment � trompeur �, mais la sortie du g�n�rateur � chaque fois plus proche de l'�chantillon r�el de � progr�s � a pu finalement transmis en arri�re, assurant ainsi la formation de combat pour les donn�es discr�tes peuvent continuer. cependant Wasserstein GAN Le GAN d'origine pour un look plus ambitieux � l'importance de l'am�lioration, et non se concentrer sur le traitement des donn�es exp�rimentales discr�tes sont donn�es au sujet de la g�n�ration de texte, etc., mais plut�t une suite � L'am�lioration de la formation des Wasserstein GAN � sp�cifiquement le texte exp�rimental qui est g�n�r� peut �tre vu � partir des r�sultats, WGAN g�n�r� texte, bien que beaucoup moins que l'effet actuellement la plupart des bovins X de g�n�ration de texte, mais en tout cas peut �tre g�n�r� en unit�s de caract�re dans un certain look peu normale l�g�rement les r�sultats, en revanche, GAN g�n�rent des r�sultats pour la production de texte est clairement l'effondrement.

3.2. Gumbel-softmax, �chantillonnage du softmax analogique

Un autre document de l'Universit� de Warwick, Universit� de Cambridge + GAN pour am�liorer le travail du centre de gravit� pour les donn�es discr�tes g�n�r�es sur la sortie modifi� softmax cet �gard. comme 2.2 Section, les op�rations d'�chantillonnage

Softmax fonctionner extraction de sortie discr�tes successives en une sortie en forme, ayant pour r�sultat la production finale d'�chantillonnage ne sont pas diff�rentiables, forment le plus grand obstacle pour les donn�es discr�tes produites GAN, depuis pas de temps d'�chantillonnage, la sortie ne se chevauchent pas avec la distribution r�elle, r�sultant en divergence JS Restez dans une valeur fixe

Si utilis� des mots d'�chantillonnage, la sortie normale des donn�es discr�tes et provoque le gradient r�tropropagation des barri�res naturelles.

Cela �tant le cas, les auteurs constatent qu'une grande copie peut SOFTMAX �chantillonnage des effets sp�ciaux, de sorte que les deux la sortie directe SOFTMAX assurer un chevauchement avec la distribution r�elle, mais aussi pour �viter d'endommager l'op�ration d'�chantillonnage qui caract�ristique diff�rentiables. Il est le � Gumbel -softmax � (Gumbel-Softmax), Gumbel-Softmax a d�j� �t� appliqu� � la redistribution de la balise discr�te de (Cat�gorique Reparam�trer), dans l'op�ration d'�chantillonnage d'origine,

La fonction softmax est convertie en un courant de sortie de vecteur Un chaud:

Le Gumbel-Softmax omis

�+

�Cette �tape peut �tre donn�e directement � la sortie de l'op�ration d'�chantillonnage d'environ:

Essence est � param�tre d'inversion � qui

�quand

Lorsque la distribution est �quivalent � la sortie de formule

�Distribution d'�chantillonnage donn�, et quand

�Lorsque la sortie est proche de formule uniform�ment r�partis, et

�Comme il est un sp�cial softmax les hyper-param�tres, �tant donn� une grande valeur initiale, devient progressivement plus petite gr�ce � la formation d'apprentissage, proche de 0, cette partie du document en lecture d�taill�e .

tentatives exp�rimentales pour utiliser le papier uniquement avec le Gumbel-Softmax GAN est effectu�e pour g�n�rer une longueur fixe grammaire hors-contexte 12 de la s�quence, la formation n'est pas visible effondrement GAN, dans quelques exemples ont �galement �t� assez r�aliste effet.

Ainsi, pour GAN am�liorations directes pour la production de texte, bien qu'il soit atteint un certain succ�s, mais encore de la r�sistance � l'�tat id�al et longue route, il n'y a pas de meilleure fa�on de le faire? Bien s�r!

4. RL dans le r�le de g�n�ration de texte GAN jou� par

4.1. Apprentissage par renforcement sur les potins potins

Apprentissage par renforcement (apprentissage par renforcement, RL) en raison de son avant-garde approche de l'apprentissage, c'est l'apprentissage mieux supervis� est enti�rement automatis� afin de mettre en uvre facile, et la courbe d'apprentissage est trop long dans de nombreuses applications pratiques, il n'a pas devenir l'objet d'une grande attention, jusqu'� ce que Go du chien appara�t, il a attir� l'attention de beaucoup de gens.

Comme il est un probl�me d'optimisation, je pense tr�s directement � l'aide des m�thodes d'optimisation de gradient (gradient) bas� r�solu. Bien s�r, dans l'apprentissage de renforcement, nous voulons obtenir est la strat�gie optimale

Ce processus sera dans le domaine de l'apprentissage de renforcement souvent entendre Politique Gradient . nous RHS

Le terme appel� s�par�

Il repr�sente la r�compense quand trouver les param�tres optimaux obtenus le mod�le de dialogue souhait�. En vrai faisant, d�finir une phrase de r�ponse ont $ N possibilit�s de $, chaque dialogue de groupe

La probabilit� peut �tre consid�r�e uniform�ment r�partie, il peut �galement �tre modifi� comme suit:

En cons�quence, le centre de l'optimisation du gradient de gravit� transform� en la g�n�ration de probabilit� de dialogue, qui est-�-dire par les param�tres

�mod�le mis � jour r�compensera a tendance � augmenter la probabilit� d'apparition de la conversation de haute qualit�, et a puni le mod�le tend � r�duire la probabilit� d'occurrence d'un dialogue de qualit� m�diocre.

Depuis AlphaGo fait l'apprentissage par renforcement soudain entr� dans l'opinion publique depuis, des �tudes plus th�oriques de l'apprentissage de renforcement joueront une plate-forme exp�rimentale importante, ce qui est d�raisonnable, l'apprentissage par renforcement d�rivation th�orique semble couramment logique, mais sa plus grande faiblesse est que , r�compens� r�compense du jugement humain bas� sur, si exp�rimentateur attendu � l'avant des broches d'ordinateur sur les r�sultats du mod�le semble �tre irr�aliste de ne pas marquer l'arr�t, le syst�me de jeu pourrait bien donner le score objectif correct (victoire / perte ou jeu Score). bas� sur RL Le dialogue sera �galement g�n�rer Confront� � ce probl�me, les chercheurs ont utilis� une impl�mentation AlphaGo similaire (joueurs d'�checs AI) - deux robots fonctionnent simultan�ment, de sorte qu'ils se parlent entre eux, en m�me temps, l'utilisation de pr�-formation (pr�-formation) bon les � points � sur les points bonus sont donn�s pour chaque dialogue de groupe

�, A propos de la pr�-formation � marquant un � R, �tre fond�e sur l'application r�elle et bricolage leurs propres besoins.

Sentez-vous un peu RL �effet ChatBot:

4.2. SeqGAN et conditionnelle SeqGAN

Cela dit pr�c�demment, finalement marqu� le d�but � l'apog�e: RL + GAN pour texte g�n�ration, SeqGAN support pr�d�cesseurs RL �Texte g�n�ration sur l'�paule, on peut dire GAN pour le texte G�n�ration du chef d'oeuvre. Bien que ce qui pr�c�de pass� beaucoup de longueur au sujet RL �Divers m�canismes ChatBot, en fait, il est pour ouvrir la voie. Imaginez que nous utilisons le discriminateur GAN r� Comme un apprentissage par renforcement de r�compense sources de r�compense, en supposant que la longueur n�cessaire pour g�n�rer une s�quence de texte T, la valeur des prix pour la g�n�ration de texte

Le calcul peut �tre transform� en la forme suivante:

jusqu'� ce g�n�rateur sol assez de texte g�n�r� � la vraie chose quand le temps est mis � jour lorsque de nouvelles arbitre de la formation. En g�n�ral, le discriminateur r� G�n�rer une s�quence de scores de jeu qui d�termine � la fois la probabilit� de la v�ritable s�quence d'�chantillons, d'apr�s la th�orie de GAN original, discriminateur r� R�sultats pour identifier les �chantillons r�els / faux sont donn�s 0,5, un g�n�rateur de sous-titres sol Lorsque suffisamment d'�chantillons g�n�r�s parasites, puis si les t�ches ci-dessus, pour produire un �chantillon est d�termin�e � plusieurs reprises jou� est proche de 0,5 ou score encore plus �lev�, � savoir discriminateur d�crits r� Le besoin de recyclage. Apr�s avoir fait r�el pour plus de commodit�, le g�n�rateur g�n�ral des tours de formation d'attente, une fois form�s classificateurs.

Il y a une autre application d'un champ magique g�n�ration d'images GAN GAN --Conditional , les conditions de GAN GAN SeqGAN propos� pour g�n�rer le dialogue (Chatbot) compl�t� la literie importante, literie jouent �galement un r�le par d�finition est g�n�r�e sur la base de certaines conditions certaines choses, en fonction des conditions de travail telles que d�crites dans l'entr�e de texte, g�n�re une image correspondant �, par exemple:

Le dialogue peut �tre comprise comme la g�n�ration du m�me mod�le, comme condition d'un dialogue, le prochain �tait les donn�es de r�ponse � g�n�rer, la seule diff�rence est la n�cessit� de g�n�rer des donn�es de texte discr�tes, et ce probl�me, SeqGAN ont aid�. En r�sum�, je lui donne son nom: sous condition SeqGAN . selon 4.1 D�rivation de la pr�sente section et de la section, l'optimisation de gradient conditionnelle SeqGAN peut �tre �crit:

Pas difficile de voir, avec cette formule 4.1 section gradient est un seul mot, seuls les bonus de � points � sur le score donn� par

�Remplac� par un discriminateur pense que la probabilit� de g�n�rer un dialogue de scores en direct

. Il peut sembler une petite diff�rence, en fait, RL + GAN �techniques de g�n�ration de texte bas�e uniquement sur RL La technologie de g�n�ration de texte essentiellement diff�rent: dans le dialogue d'apprentissage de renforcement g�n�r� dans l'original, bien que l'utilisation de l'intelligence artificielle se parler, et ensemble scoring jugle, mais cette jugle est pr�-form� dans le processus de formation du dialogue entre les mod�les les changements ne se produisent pas; RL + GAN La g�n�ration de texte et m�me le mod�le de dialogue est diff�rent, discriminateur r� et g�n�rateur sol mise � jour de la formation en alternance, changement, et donne donc des points bonus discriminateur r� Voici dynamique (dynamique).

RL + GAN une meilleure utilisation des m�canismes de r�compense et d'apprentissage Politique Gradient �La technologie, habilement �vit� lorsque gradient de donn�es discr�tes GAN ne peut pas faire face au probl�me de BP, dans la m�thode utilisant la formation d'apprentissage par renforcement Builder sol L'�cart, mais aussi l'utilisation de la m�thode originale de formation discriminateur contre l'apprentissage r� . Dans les r�sultats du mod�le vedette conditionnel SeqGAN du dialogue, RL + formation GAN pour obtenir le g�n�rateur peut revenir souvent une r�ponse r�aliste r�elle similaire (je vraiment juste une proche de faible � � La vall�e de la peur � sensation).

Les d�tails de certains �tendent +

Au-dessus, sauf que les principes de base RL + GAN de g�n�ration de texte, nous savons que de nombreuses incertitudes existence GAN d'un cours de l'op�ration proprement dite, afin d'optimiser l'effet de g�n�ration de texte GAN, autant que possible, puis d'explorer plus en GAN le champ potentiel de la PNL, il y a quelques d�tails dignes de mention.

5.1 R�compense de base :. Bias sur la valeur de r�compense

5.2 REGS :. Une personne quand une erreur

lecteur attentif peut �tre trouv�e dans SeqGAN formule optimis� pour le calcul de d�rivation de r�compense par discriminateur r� G�n�rer des points bonus donn�s �chantillon est en fait un processus de g�n�ration de s�quence de texte conforme, mot par mot g�n�r� formule d�riv�e avant de pouvoir voir le spectacle pour la valeur des prix de s�quence en partie du texte, puis en moyenne la somme. Cependant, dans les exp�riences initiales, gradient optimis�e est calcul�e en fonction de la valeur finale des lots d�riv�e, discriminateur r� �tre form� pour g�n�rer un score de phrase pour �valuer les r�sultats, dans ce cas, un discriminateur r� Notation pour la s�quence g�n�rer dans chaque jeton est �gal � exister, pour vous r�compenser avec prime (valeur de bonus peut �tre consid�r� comme le m�me), pour punir punir ensemble, cette approche conduira � une cons�quence, regardez l'exemple suivant.

Par exemple, il y a un tel groupe de dialogue (contenant des r�ponses r�elles et g�n�rer des r�ponses):

question = Real_answer = Fake_answer =

De toute �vidence, le discriminateur r� Celui-ci permet d'identifier facilement la r�ponse est fausse, est li� � donner une r�compense tr�s faible est des points de dollars, mais une comparaison attentive de la vraie / fausse r�ponse se trouve en deux, le premier mot � je � est en fait un mot et le premier �chantillon est r�el le m�me, et le dernier caract�re. � � en fait, il ne pouvait pas faire du mal, ils sont en fait pas mal, vraiment mal est � non � et � savoir � ces deux mots, mais malheureusement, le discriminateur d�termine que fake_answer �La r�ponse globale est fausse, les termes innocents d'origine dans le � I � et � � devraient �tre punies ainsi que la d�termination � faible score.

5.3 MC Recherche & discriminateur pour Decoded partiellement Sequences :. pr�cision et la vitesse Choix

. 5.4 Ma�tre Obliger: un mod�le de r�le pour g�n�rateur

Avant de commencer � expliquer Ma�tre Obliger SeqGAN le premier � aider les gens � prendre simplement sur les deux types de mode RNN run: (1) mode en cours d'ex�cution libre; (2) Mode Ma�tre-Forcing ... Le premier est le mode de fonctionnement normal RNN: un �tat de la sortie est utilis�e comme entr�e � l'�tape suivante, il y a le risque de le faire, parce que dans les premiers jours, l'avant de l'�tat de formation RNN si un r�sultat tr�s pauvre, donc tous derri�re l'�tat sera affect�, de sorte que le r�sultat final est tr�s mauvaise, il est tra�able difficile � la source de l'erreur est survenue, et cette derni�re approche en mode Ma�tre-Forcing est, chaque sortie n'est pas utilis� comme entr�e d'un �tat dans un �tat de , mais directement utilis� en tant qu'entr�e � l'�tat suivant correspondant � la r�alit� de terrain.

Prenez mod�le Seq2Seq, par exemple, nous supposons que la sortie positive � la troisi�me, quatri�me g�n�ration pr�t:

entr�e = output = label =

d�codeur sera sous le mode en cours d'ex�cution libre troisi�me sortie d'erreur sortie = 's' Le troisi�me �l�ment (index commence � partir de 0) comme entr�e de l'�tat suivant, et dans le mode de for�age enseignant, le d�codeur corrigera les �chantillons �tiquette = 'q' Comme l'entr�e � l'�tape suivante. Bien s�r, ce faisant a aussi ses inconv�nients, car d�pendant des donn�es d'�tiquette, lorsque la formation aura de bons r�sultats, mais au moment de l'essai ne peut pas �tre pris en charge par la v�rit� au sol de la. Le meilleur r�sultat est que le mode en cours d'ex�cution libre de comportement form� pr�s en mode for�age des enseignants autant que possible, le professeur Obliger en utilisant l'essai GAN pour atteindre cet objectif.

Bien s�r, ceux-ci sont � c�t� du point, nous allons revenir au mode Enseignant-Forcing motivation initiale: la formation (it�ration) au d�but RNN tr�s faible, � peine donner de bons r�sultats g�n�r�s (que l'irrigation coupure de chute bris�e, la production de la production de d�chets influence derri�re l'�tat), nous devons compter sur la v�rit� du terrain escort� de force loin, peut lentement sur la bonne voie.

SeqGAN aussi il y a un probl�me, un g�n�rateur de d�marrage sol Tr�s faible, m�me apr�s un certain nombre de pr�-form�, g�n�rant presque le r�sultat pas bon, le mauvais r�sultat au discriminateur r� Seul le retour in�vitable � une faible r�compense (punition), le g�n�rateur sol La formation ne peut �tre bas� notation pour optimiser le discriminateur ne peut pas �tre guid� par le bon exemple, et ne sait jamais ce qui est un bon r�sultat, le r�sultat in�vitable est un cercle vicieux. Ainsi, il est n�cessaire de g�n�rer une formation en SeqGAN sol �chantillons r�els d'orientation, qui est, dit le constructeur: � Quel genre d'�chantillons m�ritent une r�compense score �lev� �

5.5 Acteur-critique :. GAN sur plus largement?

Un des articles de type semi-examen dans DeepMind de , le parl� d'un autre mod�le sp�cial --Actor-critique apprentissage de renforcement et d'analyser les liens entre ce mod�le et GAN.

Regardez d'abord de nous au discriminateur GAN r� et g�n�rateurs sol La fonction objectif d'optimisation:

Permettez-moi de dire l'apprentissage de renforcement, l'apprentissage de renforcement dans l'it�ration bas�e sur des r�gles, la strat�gie d'action actuelle en essayant d'obtenir r�compense de l'environnement et mettre � jour la politique. Cette op�ration est tr�s efficace dans l'environnement de laboratoire de jeu, parce que le jeu a un syst�me ferm� et l'environnement clair, il peut �tre stable objectivement donn�e selon diverses r�compenses de la correspondance re�ue de l'action, mais dans la vraie vie, beaucoup de temps et clairement pas ferm� environnement, �tant donn� que l'action doit �tre lui-m�me r�compense est pas exacte, ne peut �tre obtenue en r�glant la notation DIY est �videmment tr�s difficile de faire un mod�le parfait des situations du monde r�el de constante �volution.

mod�le GAN sera d�crite comme une forme sp�ciale de acteur-critique, et de comparer les caract�ristiques et technique am�lior�e ult�rieure respectives adapt�es dans le cas des deux. Imaginez, puisque la technologie d'apprentissage de renforcement GAN pour aider � r�soudre le probl�me de la propagation de gradient sur des donn�es discr�tes, alors m�me afin de renforcer l'apprentissage contradictoire acteur-critique permet �galement la g�n�ration de texte est une autre possibilit�.

5.6 IRGAN :. Retrieve deux mod�les concurrents

IRGAN Ce travail a �t� publi� en 2017 SIGIR, du point de vue de l'auteur, il n'est pas destin� � une gamme d'uvres extraordinaires, qui contiendra la SeqGAN distribution originale, l'auteur va g�n�rer des id�es contre les r�seaux utilis�s dans la recherche d'information , mais ne respectent pas le cadre traditionnel GAN classique, mais d'utiliser le mod�le dans deux zones IR de grandes existent d�j�: formule du mod�le IR �et mod�le discriminante IR .

objectif de formule mod�le IR est de g�n�rer une requ�te - > �Pertinence document distribu� par la distribution des r�sultats de recherche de retour li�s � chaque entr�e de requ�te et discriminantes ressemble mod�le IR plus comme un classificateur de seconde classe, son objectif est possible de distinguer les requ�tes associ�es < query_r, document_r > Et sans rapport avec la requ�te < query_f, document_f > Pour une requ�te donn�e sur < requ�te, documents > , Le mod�le discriminante IR donne deux degr�s d'association de la paire de requ�te.

Une caract�ristique majeure IRGAN est contre le mod�le des deux ensembles chacun est une sorte de mod�le IR, donc apr�s la formation de combat, peu importe d'o�, il y a espoir de briser le goulot d'�tranglement de l'original. Les auteurs ont �galement sur la formation IRGAN r�unit nos �chantillons associ�s associ�s � l'�chantillon, observ�e ou non observ�e �quilibre de Nash font une discussion, bien qu'il soit difficile d'obtenir que l'on appelle une r�elle pertinence dans la distribution des applications de recherche r�elle, mais les auteurs croient, sortie du mod�le IR est toujours d�termin� et g�n�rer une sortie correspondante du mod�le IR, il existe une force de corr�lation positive, �galement n� de la flottabilit� du papier analogie un peu obscur et faites glisser sur le poids flottant finit par atteindre un �tat d'�quilibre.

�pilogue

Le d�veloppement rapide de ce domaine, peut-�tre dans le temps que je termine ce blog, un groupe de travail de brouillage � �merger, mais le r�sultat final est certainement plus que cela, je ne sais pas comment bien � la fin, peut-�tre attendre pour GAN pour moi, il nous a apport� une fin merveilleuse.

reconnaissance

remerciements sp�ciaux CHANG Taiwan professeurs d'universit� enseignent vivant , qui a une aide importante pour moi de comprendre aux points de connaissances multiples.

r�f�rence

Il Yongcan RPSC. G�n�ration de texte Fun . Http://geek.csdn.net/news/detail/131622.

Ashwin, K, Vijayakumar, Michael, Cogswell, Ramprasath, R, Selvaraju, Qing, Sun, Stefan, Lee, David, Crandall, Dhruv, Batra Diverse faisceau Recherche :. D�codage diverses solutions de mod�les Neural s�quence . Https://arxiv.org/abs/1610.02424v1.

Minh-Thang, Luong, Hieu, Pham, Christopher, D, Manning. Approches efficaces At-tention bas� Neural traduction automatique . Https://arxiv.org/abs/1508.04025.

W. Chan, N. Jaitly, Q. Le et O. Vinyals, "Ecoute, assistez et sort: Un r�seau de neurones pour une grande reconnaissance vocale conversationnelle vocabulaire," ICASSP 2016, https://research.google.com /pubs/pub44926.html.

Jiwei, Li, Minh-Thang, Luong, Dan, Jurafsky. Un hi�rarchique Neural Autoencoder pour Par-agraphs et documents . Https://arxiv.org/abs/1506.01057.

Zheng Huabin de PM � GAN -. LSTM p�re de 22 ans � travers Schmidhuber Yuannian . Https://zhuanlan.zhihu.com/p/27159510?utm_source=zhihu&utm_medium=social.

J�rgen, Schmidhuber. apprentissage factoriels des codes postaux par Pr�visibilit� Minimisation . Calcul neuronal, 1992, 4 (6): 863-879,

Ian, J, Goodfellow, Jean, Pouget-Abadie, Mehdi, Mirza, Bing, Xu, David, Warde-Farley, Sherjil, Ozair, Aaron, Courville, Yoshua, Bengio. g�n�ratives accusatoires Networks . Https://arxiv.org/abs/1406.2661v1.

Samuel, R, Bowman, Luke, Vilnis, Oriol, VINYALS, Andrew, M, Dai, Rafal, Jozefowicz, Samy, Bengio. Les phrases � g�n�rer � partir d'un espace continu . Https://arxiv.org/abs/1511.06349.

Zhenghua Bin. Etonnamment Wasserstein GAN . Https://zhuanlan.zhihu.com/p/25071913.

Ishaan, Gulrajani, Faruk, Ahmed, Martin, Arjovsky, Vincent, Dumoulin, Aaron, Courville. Am�lioration de la formation de Wasserstein GAN . Https://arxiv.org/abs/1704.00028.

Matt, J, Kusner, Jos� Miguel, Hernandez-Lobato. GANS pour des s�quences de discrets ELE-ments avec la distribution Gumbel-softmax . Https://arxiv.org/abs/1611.04051.

Martin, Arjovsky, Soumith, Chintala, L�on, Bottou. Wasserstein GAN . Https://arxiv.org/abs/1701.07875v1.

Sebastian, Nowozin, Botond, Cseke, Ryota, Tomioka f-GAN :. Formation g�n�rative Neural �chantillonneurs utilisant Variational Divergence Minimisation . Https://arxiv.org/abs/1606.00709.

Eric, Jang, Shixiang, Gu, Ben, Poole. Cat�gorielles Reparam�trer avec gomme-bel-Softmax . Https://arxiv.org/abs/1611.01144.

Jiwei, Li, Will, Monroe, Alan, Ritter, Michel, Cuisine, Jianfeng, Gao, Dan, Jurafsky. Apprentissage profond Renforcement pour le dialogue G�n�ration . Https://arxiv.org/abs/1606.01541v3.

Lantao, Yu, Weinan, Zhang, Jun, Wang Yong, Yu SeqGAN :. S�quence g�n�rative Adver-sarial Nets avec la politique de d�grad� . Https://arxiv.org/abs/1609.05473.

Mehdi, Mirza, Simon, Osindero. Conditionnelle g�n�rative accusatoire Nets . Https://arxiv.org/abs/1411.1784.

Scott, Reed, Zeynep, Akata, Xinchen, Yan, Lajanugen, Logeswaran, Bernt, Schiele, Honglak, Lee. G�n�rative accusatoire texte � l'image de synth�se . Https://arxiv.org/abs/1605.05396.

Jiwei, Li, Will, Monroe, Tianlin, Shi, S�bastien, Jean, Alan, Ritter, Dan, Jurafsky. Adver-sarial d'apprentissage pour le dialogue Neural G�n�ration . Https://arxiv.org/abs/1701.06547.

Argent, D;. Huang, A;. Maddison, C. J;.. Guez, A;. Siphr�, L;. Et al 2016. La ma�trise du jeu

. De go avec les r�seaux de neurones profonds et la recherche d'arbres Nature 529 (7587): 484-489,

Williams, RJ et Zipser, D. (1989). Un algorithme d'apprentissage pour faire fonctionner en permanence les r�seaux de neurones enti�rement r�currents. De calcul Neural, 1 (2), 270-280, abs / 10,1162 / neco.1989.1.2.270.

Alex, Lamb, Anirudh, Goyal, Ying, Zhang, Saizheng, Zhang, Aaron, Courville, Yoshua, Bengio Professeur Obliger :. Un nouvel algorithme de formation R�seaux r�currents . Https://arxiv.org/abs/1610.09038v1.

David, Pfau, Oriol, Vinyals. Connexion g�n�rative accusatoire R�seaux et m�thodes Ac-tor-Critic . Https://arxiv.org/abs/1610.01945.

Jun, Wang, Lantao, Yu, Weinan, Zhang, Yu, Gong, Yinghui, Xu, BENYOU, Wang Peng, Zhang, Dell, Zhang IRGAN :. Un jeu Minimax d'information sur Unifying g�n�rative et discriminante Retrieval mod�les . Https://arxiv.org/abs/1705.10513v1.

Hungyi, Lee. Machine Learning et ayant profond�ment et structur� . Http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS17.html.

Route de la soie

Apprenez � conna�tre la Chine

La machine n'apprend pas: pour renforcer l'apprentissage joue le r�le dans la g�n�ration contre le texte de r�seau de nouvelle g�n�ration