Apr�s avoir lu imm�diatement comprendre GAN! D�butant n'a pas d'importance

Lei Note du r�seau Feng: Cet article mil original pluie auteur, savoir presque contenu dans le chroniqueur d'origine - la machine est d'apprendre de Lei Feng Post� avec la permission.

avant-propos

Depuis sa cr�ation en 2014, le d�veloppement de GAN est tr�s chaud, les applications GAN plus c�l�bres sont Pix2Pix, CycleGAN et ainsi de suite. Cet article est principalement pour les d�butants dans le code pour comprendre le m�canisme de la structure et le fonctionnement de GAN, pas trop description d�taill�e de la th�orie. Nous adoptons des ensembles de donn�es �crites � la main MNIST (ensembles de donn�es ont � dire ce qui est tr�s facile � utiliser pour les novices) que nos donn�es de formation, nous allons construire simple GAN �crit � la main pour g�n�rer des images num�riques.

comprendre GAN

GAN comprend essentiellement deux parties, � savoir le g�n�rateur et le discriminateur de discriminateur de g�n�rateur. Builder est principalement utilis� pour �tudier la r�partition de l'image r�elle de telle sorte que l'image elle-m�me g�n�r� plus r�el pour tromper le discriminateur. Discriminateur est n�cessaire de faire la distinction entre l'image vrai et faux re�us. Tout au long du processus, le g�n�rateur difficile de faire la g�n�ration d'image plus r�aliste, tandis que le discriminateur est difficile de reconna�tre les images vraies et fausses, ce processus est �quivalent � un jeu � deux, comme le temps passe, le g�n�rateur et le discriminateur constamment confronter les deux r�seaux finaux ont atteint un �quilibre dynamique: le g�n�rateur d'image g�n�re une image plus proche de la vraie distribution tout en fait pas la diff�rence d'image discriminateurs de reconnaissance, pour une image donn�e est vraie probabilit� pr�dite sensiblement proche de 0,5 (ce qui �quivaut � la cat�gorie de devinette al�atoire).

Pour une compr�hension plus intuitive de GAN peut utiliser un exemple pour illustrer: bande contrefa�on g�n�rateur �quivalent, ils veulent tromper la banque en forgeant l'argent, la fausse monnaie peut faire la n�gociation normale, tandis que la Banque �quivalent � la discrimination, vous devez d�terminer l'argent entrant il est de l'argent r�el ou contrefait. Le but est de cr�er un gang de fausse monnaie de la banque ne reconna�t pas la fausse monnaie et tromper la banque, la banque est de trouver des moyens d'identifier avec pr�cision la fausse monnaie.

Par cons�quent, nous pouvons r�aliser un r�sum� du contenu de ce qui pr�c�de. Compte tenu de vrai = 1, faux = 0, alors il y a:

, Vous voulez pour une image r�elle donn�e (image r�elle) pour marquer le discriminateur 1;
Pour une image de g�n�ration donn�e (image fausse), vous voulez marquer le discriminateur 0;
G�n�rateur pour g�n�rer des images discriminateur pass�, le souhait g�n�rateur de discriminateur � l'�tiquette 1.

Avec ce qui pr�c�de la compr�hension intuitive, impl�mentons une donn�es manuscrites GAN pour g�n�rer! Il y a quelques d�tails seront d�crits dans la section de code.

explication

tensorflow 1.0
Python 3
Notebook Jupyter
GitHub Adresse: NELSONZHAO / zhihu

Recommand� que vers le bas pull code, certains ne codent pas �crire � r�aliser dans l'article.

code section

le chargement et l'affichage des donn�es

Nous avons utilis� des donn�es tensorflow donn� interface de donn�es MNIST.

Avant de construire le mod�le, nous examinons d'abord ce que nous devons accomplir la t�che:

entr�es
g�n�rateur
discriminateur
Les param�tres d�finis
perte et optimiseur
entra�neur
Affichage des r�sultats

Entrez les entr�es

La fonction principale est de d�finir l'entr�e et g�n�re une image r�elle image deux tenseur.

g�n�rateur d�fini

Notre g�n�rateur est structur� comme suit:

Nous utilisons la couche cach�e au moyen d'un Leaky RELU comme fonction d'activation, et la fonction d'activation tanh ajout� dans la couche de sortie.

Ce qui suit est un g�n�rateur de code. Remarque Lors de la d�finition g�n�rateur et le discriminateur, nous voulons pr�ciser la port�e des variables, car GAN comprend en fait deux g�n�rateurs avec un r�seau discriminateur, tandis que la formation dans la formation s�par�e suivi, donc nous voulons d�finir la port�e bonne, variable sp�cifi�e temps de formation pratique.

Dans ce r�seau, nous avons utilis� une couche cach�e, et ajouter l'abandon �viter surajustement. En images sonores, entr�e image de sortie du g�n�rateur en taille r�elle de l'image.

Voici notre fonction d'activation de la couche cach�e utilise un Leaky Relu (chinois ne savent pas comment la traduction), cette fonction modifie la d�finition de la moiti� gauche de la fonction sur la base de Relu.

Photo de Wikipedia. Andrej Karpathy dans CS231n a �galement mentionn� les mod�les ont cette fonction pour obtenir de bons r�sultats.

Depuis tensorflow cette fonction ne soit pas mis en uvre, o� nous avons atteint Leaky Relu d�finie par une fonction, o� alpha est un petit nombre. Dans la couche de sortie, nous utilisons la fonction tanh parce tanh ici par rapport aux r�sultats sigmo�de sera encore mieux (Il est � noter ici, �tant donn� que le g�n�rateur de pixel d'image g�n�re une valeur limite entre le (-1, 1), l'intervalle pixel MNIST ensemble de donn�es est , donc au moment de la formation de MNIST nous nous occupons de l'entr�e, consultez la section sp�cifique de la formation de code) . Ceci, nous construisons un bon g�n�rateur, qui produit une image comme la taille r�elle de l'image en recevant une image sonore.

d�finir discriminateur

La structure est d�termin�e comme suit:

Discriminateur recevant une image, et d�termine si elle est vraie, la couche cach�e en utilisant le m�me Leaky RELU, une couche de sortie de noeuds, la probabilit� d'une sortie est. Code est la suivante:

Ici, nous devons faire attention et g�n�rer des images r�elles d'image sont discriminateur de param�tres partag�s, alors voici nous avons laiss� derri�re nous r�utilisons des interfaces pour faciliter l'appel.

Les param�tres d�finis

img_size est notre vraie taille de l'image = 32 * 32 = 784.

param�tre lisse �tiquette Lissage R�gularisation est dans le dos sera introduit.

La construction du r�seau

Ensuite, nous construisons notre r�seau et l'acc�s au g�n�rateur variable et discriminateur revenus.

On nous a donn� un g�n�rateur et logits et sorties discriminante. Notez que l'image est r�elle image et g�n�rer des param�tres partag�s, de sorte que lorsque l'entr�e discriminateur a g�n�r� des images, vous devez r�utiliser les param�tres.

La d�finition de la perte et l'Optimiseur

Avec les logits ci-dessus, nous pouvons d�finir notre perte et Optimizer. Avant cela, regardons ce que chaque g�n�rateur de discriminateur et objectifs:

Pour une image r�elle donn�e, vous voulez marquer le discriminateur 1;
Pour une g�n�ration des images de donn�es que vous souhaitez marquer le discriminateur 0;
G�n�rateur pour g�n�rer des images discriminateur pass�, le souhait g�n�rateur de discriminateur � l'�tiquette 1.

Nous devons convertir ces trois mots en code ci-dessus:

d_loss_real correspond � l'image r�elle de la perte, il est possible de faire une sortie du discriminateur proche de 1. Ici, nous utilisons l'�tiquette unilat�rale Lissage R�gularisation, il est un moyen appropri� pour �viter aussi, dans la cat�gorie traditionnelle, nous visons � 0 ou 1, intuitivement compris dans les mots, un tel objectif n'est pas assez mou, mod�le se traduira par une formation pour leurs pr�dictions trop confiants. Donc, nous ajoutons de la valeur pour permettre une meilleure discriminateur effet de g�n�ralisation lisse.

d_loss_fake perte g�n�r�e images correspondant, il est possible de faire une sortie du discriminateur est 0.

d_loss_real et d_loss_fake ajouter � la perte de l'ensemble discriminateur.

Du c�t� du g�n�rateur, il veut laisser l'arbitre de leur propre produit sortie d'image � 1 possible, il est confrontation discriminateur �quivalent.

Ici, nous d�finissons la fonction d'optimisation, puisque le GAN contient deux g�n�rateurs et discriminateur r�seau, doit �tre optimis� s�par�ment, ce qui est la raison pour laquelle nous d�finissons variable_scope avant.

entra�neur

La formation fait partie du code est trop long, je ne suis pas ici pour tenir le coup, allez � mon GitHub t�l�charger le code. Dans la section de formation, nous avons enregistr� la partie du processus de g�n�ration d'image et enregistrer les changements dans la perte de donn�es de formation.

Nous allons changer le processus de formation de la perte tir�e:

De la figure, on peut voir, l'arbitre final fluctuant d'ensemble autour d'une perte, et la perte fausse fluctuation de perte r�elle presque dans une ligne horizontale, ce qui montre le discriminateur final pour discriminer entre les images vraies et fausses ont pas la capacit�, mais Analyse al�atoire .

Affichage des r�sultats du processus

Nous avons enregistr� le processus de formation de 25 �chantillons � diff�rents stades d'�chantillons d'image pour s�rialiser un moyen d'�conomiser, nous viendrons �chantillons charg�s. �chantillons de taille = x 2 x �poques N_SAMPLES x 784, notre nombre d'it�rations � 300, 25 �chantillons, par cons�quent, des �chantillons de taille = 300 x 2 x 25 x 784. Nous allons g�n�rer le tour final des r�sultats imprim�s sur:

Ceci est le r�sultat de notre image par GAN apr�s avoir appris la vraie image de la distribution g�n�r�e.

Donc, certains �tudiants pourraient se demander, si nous voulons voir ce 300 changements image g�n�r�e de ce que la fa�on de le faire? Parce que nous avons d�j� des �chantillons, le stockage des r�sultats de chaque tour d'it�ration, nous pouvons prendre quelques it�rations, les images correspondantes jouent sur:

Ici, je choisi le premier 0, 5, 10, 20, 40, 60, 80, 100, 150, 250 it�rations rendus, dans ce graphique, on peut voir le d�but que le milieu est blanc, fond noir. bloc, il y a beaucoup de bruit. Avec le nombre croissant d'it�rations, la capacit� de g�n�rer la fabrication de � carte de faux � de plus en plus forte et plus forte, il a distribu� apprendre progressivement la vraie image, le point le plus �vident est de distinguer les limites de l'image un fond noir et caract�res blancs.

G�n�rer une nouvelle image

Si nous voulons r�g�n�rer une nouvelle image de celui-ci? � ce stade, nous ne devons sauver avant notre arriv�e bon fichier mod�le est charg� peut �tre des amis.

r�sum�

toute MNIST article bas� sur un ensemble de donn�es construit un mod�le simple de GAN, je crois qu'un petit partenaire pour lire le GAN de code aura une compr�hension pr�liminaire. D'apr�s les r�sultats, le mod�le final, l'image g�n�r�e peut �tre s�par�e de la r�gion d'arri�re-plan num�rique, un bloc noir bruit disparaissent peu � peu, mais les r�sultats montrent, il y a encore de nombreux domaines de la logique floue.

Pour le traitement d'image ici, je crois que beaucoup de petits partenaires pensent convolution r�seau de neurones, puis plus tard, nous serons g�n�r�s et le discriminateur au lieu r�seau de neurones convolution pour construire la profondeur de convolution GAN, il a fait pour une meilleure image va g�n�rer effet.

Si vous vous sentez bien, s'il vous pla�t donner un point GitHub �toile il ~

Route de la soie