�Ji-won nouvelle compilation

Source: blog.otoro.net

Auteur: David Ha compilation: Xiao Qin

[New Ji-won EXAMEN � Mod�le du monde � (Mod�les du monde) est un mod�le de r�seau de neurones construit pour l'environnement d'apprentissage am�lior� chercheur Google cerveau David Ha et AI Lab suisse, chef de coparrain�e J�rgen Schmidhuber. � Mod�le du monde � a �t� publi� sur le papier a d�clench� une discussion anim�e. R�cemment, David Ha, l'un des auteurs a publi� une m�thode pour reproduire le mod�le exp�rimental du monde, il apporte �tape interpr�tation.

� Mod�le du monde � (Mod�les Monde) Un mod�le de r�seau de neurones est con�u pour renforcer l'environnement d'apprentissage scientifique de recherche Google cerveau David Ha et AI Lab suisse, chef de J�rgen Schmidhuber co-parrain�. mod�le mondial peut Unsupervised Mani�re rapide de la formation, de sorte que l'intelligence artificielle de pr�dire l'�tat futur de l'environnement ext�rieur dans le � r�ve �, une augmentation substantielle de l'efficacit� des t�ches. Le document a �t� publi� a d�clench� une discussion anim�e.

R�cemment, David Ha, l'un des auteurs a publi� une m�thode pour reproduire le mod�le exp�rimental du monde, il apporte �tape interpr�tation. Mod�le de r�f�rence tensorflow sur GitHub: https: //github.com/hardmaru/WorldModelsExperiments

D'autres personnes ont r�alis� le mod�le mondial ind�pendant. Keras r�aliser une partie de reproduction exp�rience CarRacing-v0. PyTorch a �galement un projet pour essayer de mettre en uvre ce mod�le dans OpenAI Retro environnements Sonic.

mod�le mondial, nous avons �t� pleinement discut� dans le document interactif original, qui ne sera pas une interpr�tation d�taill�e des documents.

Mod�les th�se mondiale: https: //worldmodels.github.io/

Param�tres du logiciel

Je l'ai test� le code avec les param�tres suivants:

Ubuntu 16.04
Python 3.5.4
tensorflow 1.8.0
NumPy 1.13.3
Niveaux VizDoom Gym
OpenAI Gym 0.9.4 (Gym 1.0+ pauses VizDoom, peut �tre appliqu� � la t�che CarRacing)
cma 2.2.0
mpi4py 2, s'il vous pla�t voir notre estool allou� pour ce projet
Jupyter ordinateur portable, pour les tests de mod�le et le suivi des progr�s

J'utilise le raisonnement OS X, mais en utilisant le mod�le de formation Google Cloud VM. I V et le mod�le M form� sur l'exemple de GPU P100, form� en utilisant le contr�leur CMA-ES 64 ayant une CPU-noyaux (n1-standard-64) dans l'instance de l'unit� centrale C. Voici un aper�u dont une partie des besoins de formation des GPU, qui a utilis� que partiellement CPU, et essayer de r�duire le co�t de l'ex�cution de l'exp�rience.

Ex�cuter mod�le pr�-formation

Vous avez seulement besoin de repo clon� dans un ordinateur de bureau en cours d'ex�cution en mode CPU, en utilisant repo mod�le pr�-form� fourni � reproduire les r�sultats. Il ne n�cessite pas Clould VM ou GPU.

CarRacing-v0

Si vous utilisez un MacBook Pro, je vous recommande la r�solution de � plus d'espace �, car l'environnement CarRacing-v0 pr�sente un �cran haute r�solution et ne respecte pas les param�tres par d�faut.

Sur la ligne de commande, entrez carracing sous-r�pertoire. Essayez de jouer leur propre jeu, python en cours d'ex�cution dans le terminal env.py. Vous pouvez utiliser les quatre touches fl�ch�es de votre clavier pour contr�ler la voiture. Press (sup�rieure et inf�rieure) d'acc�l�ration / freinage tournant (gauche / droite).

Dans ce contexte, chaque terme va g�n�rer une nouvelle piste al�atoire . Bien que si je conduis tr�s attentivement, vous pouvez facilement obtenir un score sup�rieur � 800, mais 900 points ou plus est difficile. Stanford Certains �tudiants �prouvent des difficult�s � toujours plus de 900 points. Cet environnement est n�cessaire pour r�soudre les 900 points en moyenne obtenus dans 100 chemin al�atoire cons�cutifs.

Pour ex�cuter un mod�le de pr�-formation et agent de vue en mode de rendu complet, ex�cutez:

python model.py rendu journal / carracing.cma.16.64.best.json

mod�le de pr�-formation fonctionne � 100 fois sans le mode de rendu (sans le mode de rendu, en raison de la n�cessit� d'utiliser l'environnement OpenGL � l'information de pixel d'extrait comme une valeur d'observation, et donc rendra encore une des choses plus simples � l'�cran pour cela):

python model.py norender log / carracing.cma.16.64.best.json

Cette commande sortie un score de chaque test 100 apr�s le test 100, il est �galement moyenne et l'�cart-type de sortie. Le score moyen devrait �tre de 900 ou plus.

Pr�-form� pour faire fonctionner le contr�leur, et visualis�es en utilisant V M g�n�r� dans l'environnement d'utilisation:

python dream_model.py log / carracing.cma.16.64.best.json

DoomTakeCover-v0

Dans le r�pertoire de doomrnn, ex�cutez python doomrnn.py l'environnement g�n�r� par la M

Vous pouvez appuyer sur la gauche ou le droit de jouer le prochain match dans cet environnement. Pour visualiser le mod�le pr�-formation en cours d'ex�cution dans un environnement r�el, ex�cutez:

python model.py doomreal rendre log / doomrnn.cma.16.64.best.json

S'il vous pla�t noter que, en plus de la trame reconstruite et le cadre r�el du jeu, la volont� de modifier l'environnement � des cadres d'affichage de 64 x 64 px recadr�e. Pour ex�cuter le mod�le dans un environnement r�el et calculer un score moyen de 100, ex�cutez:

python model.py doomreal norender log / doomrnn.cma.16.64.best.json

Vous devriez obtenir le score moyen plus de 900 pas de temps de 100 fois dans les �pisodes al�atoires. Si vous souhaitez obtenir un agent d'information statistique jouant le jeu dans l'environnement de construction, vous pouvez utiliser doomrnn au lieu de doomreal, les ci-dessus deux lignes de code fonctionne toujours. Si vous voulez changer l'environnement de temp�rature g�n�r�e, modifier la temp�rature constante doomrnn.py le r�glage actuel est de 1,25.

Pour lire le mod�le de visualisation de jeu dans l'environnement de compilation, ex�cutez:

python model.py doomrnn rendre log / doomrnn.cma.16.64.best.json

D�s le d�but de la formation

DoomTakeCover-v0

Nous discutons d'abord l'exp�rience VizDoom, parce que cette exp�rience � partir de z�ro pour atteindre des besoins moins informatiques. �tant donn� que vous pouvez mettre � jour le mod�le de prise en pension, donc je recommande cette fourche repo et clone / mettre � jour votre fourche. Je recommande de lancer une session tmux de commande afin que les emplois continueront � fonctionner dans la connexion ssh en arri�re-plan est ferm�.

Cr�ation d'une premi�re instance de ~ 200GB core CPU et la capacit� de stockage de 220 Go de m�moire vive 64 a et repo clon� dans cet exemple. Dans doomrnn r�pertoire, il y a un script appel� extract.py, il va extraire 200 �pisodes de politique al�atoire et enregistrez le fichier comme .npz dans doomrnn / record. le script bash nomm� extract.bash courra extract.py 64 fois, donc en ex�cutant le extract.bash bash, nous allons g�n�rer 12.800 fichier .npz doomrnn / record. Certains cas peuvent �chouer au hasard, donc nous avons eu quelques donn�es suppl�mentaires, bien qu'� la fin, nous avons utilis� seulement pour former 10000 �pisodes V et M. Ce processus prend plusieurs heures (probablement pas 5 heures).

Apr�s avoir cr�� un enregistrement dans le fichier de sous-r�pertoire, j'ai cr�� un exemple GPU P100 ~ 200 Go d'espace de stockage et ayant 220GB de RAM, et dans lequel le repo clon�. J'utilise la commande ssh copie scp pour copier dans le m�me enregistrement sous-r�pertoire instance de GPU les instances de CPU de tous les fichiers. Si scp ne fonctionne pas, vous pouvez utiliser l'outil gcloud. Si les deux instances dans la m�me zone, ce qui devrait �tre tr�s rapide, moins d'une minute. Apr�s avoir copi�. Fichier NPZ � la machine GPU, d�sactivez l'instance de CPU.

GPU sur la machine, ex�cuter des commandes pour former bash gpu_jobs.bash de VAE, ensemble de donn�es pr�-enregistr�es, et la formation MDN-RNN.

Cette gpu_jobs.bash ex�cuter successivement les trois �l�ments suivants:

1) python vae_train.py-- qui formera VAE, et apr�s la formation, le mod�le sera enregistr� dans tf_vae / vae.json dans

VAE pr�traiter des donn�es recueillies series.py python, � l'aide de pr�-formation: 2) Ensuite, en le d�marrant. est cr�� un nouvel ensemble de donn�es dans un sous-r�pertoire nomm� s�rie de.

3) Ensuite, appel� series.npz enregistrer un ensemble de donn�es, le script commencera la formation-RNN en utilisant MDN la commande suivante: rnn_train.py python. Cela va g�n�rer un mod�le tf_rnn / rnn.json et tf_initial_z / initial_z.json dans. Les variables latentes initiales requises pour produire le fichier est enregistr� initial_z.json environnement de l'�pisode (z). ensemble du processus peut prendre 6-8 heures.

bloc-notes � vae_test.ipynb � L'entr�e / image reconstruite visualis�e en utilisant l'ensemble de donn�es d'apprentissage sur la VAE.

V et M apr�s la formation est termin�e, vous obtiendrez trois nouveaux fichier JSON, doit maintenant copier vae.json, initial_z.json et rnn.json � tf_modelssub r�pertoire et remplacer le fichier pr�c�dent. Vous devez utiliser git add doomrnn / tf_models / *. Json � ces nouveaux mod�les seront mis � jour repo git, et soumettre des mises � jour � votre fourchette. Apr�s l'ach�vement de cette op�ration, la machine peut �tre d�sactiv�e GPU. Vous devez d�marrer le nouveau instance de CPU 64-core, puis connectez-vous sur la machine � nouveau.

Maintenant, les base d'un cycle de formation des instances de CPU 64-core, CMA-ES, lancer la commande train.py python doomrnn r�pertoire. Cela commencera le formateur et continuer la formation jusqu'� ce que Ctrl-C pour ce travail. Le contr�leur C sera form� � la temp�rature 1,25 M dans l'environnement de construction. Vous pouvez charger g�n�r� des fichiers journaux plot_training_progress.ipynb portable au progr�s du moniteur. Apr�s 200 it�rations (ou environ 4-5 heures) apr�s, devrait �tre suffisant pour obtenir des r�sultats substantiels, vous pouvez arr�ter. Je me suis arr�t� apr�s pr�s de 18 it�rations, mais il ajouterait pas vraiment valeur apr�s 200 fois, vous ne pouvez pas perdre votre argent. Le journal / *. Json ajouter tous les fichiers d�j� dans la fourchette de la pension, et puis arr�tez l'instance.

FIG: en utilisant les formation de CMA-ES DoomRNN, les performances d'enregistrement C dans l'environnement g�n�r�

Utilisez votre instance de bureau, et a une nouvelle fois tirer le repo de la fourche, vous pouvez maintenant ex�cuter le code suivant pour tester la nouvelle formation V, les mod�les M et C.

python model.py doomreal rendre log / doomrnn.cma.16.64.best.json

Vous pouvez remplacer doomreal avec doomrnn ou rendus norender pour essayer de g�n�rer l'environnement ou l'agent tenter 100 fois.

CarRacing-v0

CarRacing-v0 proc�dure de VizDoom que l'exemple pr�c�dent est presque le m�me, cette section se concentre sur les diff�rences en place.

�tant donn� que l'environnement CarRacing-v0 est construit en utilisant OpenGL, m�me sans rendre l'environnement de salle de mode, il d�pend �galement d'une sortie graphique, si la bo�te CloudVM doit �tre commande du serveur sans t�te tass�e X. Vous pouvez voir le fichier extract.bash dans le r�pertoire carracing, ex�cutez xvfb terme -a -s � -Screen 01400x900x24 + l'extension RANDR � avant la commande r�elle. De plus, la collecte de donn�es et mod�le de formation M V et la m�me proc�dure que VizDoom.

S'il vous pla�t noter que, apr�s le mod�le de formation et de VAE-RNN MDN, vous devez copier s�par�ment vae.json, initial_z.json et rnn.json � vae, initial_z et r�pertoire RNN (au lieu de copier � tf_models comme DoomRNN dans), et couvrant la pr�c�dente fichier et mise � jour comme repo en forme de fourche habituelle.

Figure: formation vae_test.ipynb pour le contr�le sur les donn�es extraites CarRacing-v0 VAE.

Dans ce contexte, nous utilisons le V et mod�les M en tant que contr�le pr�dictif de mod�le (MPC), dans un environnement r�el et des contr�leurs de formation C, plut�t que de la formation dans l'environnement de production. , Vous devez donc ex�cuter gce_train.bash, au lieu de courir train.py. Parce que nous formons dans un environnement r�el, par rapport � DoomRNN, la formation lentement. Parce qu'il est ex�cut� en tmux session de formation, vous pouvez ex�cuter dans tmux Jupyter parall�le dans une autre session � utiliser plot_training_progress.ipynb progr�s moniteur portable, il se chargera g�n�r� des fichiers journaux.

Carte: formation de CMA-ES-CarRacing v0. Enregistrement des performances dans un environnement r�el C.

Apr�s 150-200 g�n�rations (ou environ 3 jours), il devrait �tre suffisant pour obtenir un score moyen de 880, et tr�s proche de la 900 points souhait�. Si vous �tes satisfait de la 850 + points recommand� alors vous pouvez arr�ter. Qualitativement, l'agent dernier par rapport � 900 + de marquer des points 850-870 est pas tr�s mal, je ne veux pas gaspiller de l'argent durement gagn� sur un nuage. Obtenez 900 + des points peut prendre plusieurs semaines. Le mod�le final avec log / *. Json format d'enregistrement, vous pouvez tester et de voir la mani�re habituelle.

contribution

Il y a beaucoup de bonnes id�es que vous pouvez essayer, par exemple, les m�thodes de formation it�rative, l'apprentissage de transfert, la motivation intrins�que, et d'autres environnements.

Figure: Un environnement de pendule pixel g�n�rative bruyant?

Si vous souhaitez �tendre le code et essayer quelque chose de nouveau, je vous sugg�re de modifier le code et essayer de r�soudre nouvel environnement sp�cifique, plut�t que d'essayer d'am�liorer le code de travailler simultan�ment dans plusieurs environnements. Je trouve que le travail, si vous voulez essayer de r�soudre l'environnement difficile, n�cessitent g�n�ralement des modifications sp�cifiques personnalis�es. Se f�licite de la demande de tirage de soumission avec des sous-r�pertoires s�par�s, sous-r�pertoires peuvent �tre adapt�s � l'environnement sp�cifique que vous essayez de r�soudre et d'expliquer dans les fichiers README.md dans les sous-r�pertoires.

lecture:

Je recommande de lire l'article ci-dessous avant d'essayer de reproduire l'exp�rience pour obtenir des renseignements g�n�raux.

Mod�les th�se mondiale: https: //worldmodels.github.io/
Un guide visuel Evolution Strat�gies: blog.otoro.net/2017/10/29/visual-evolution-strategies
Strat�gies stables en pleine �volution: blog.otoro.net/2017/11/12/evolving-stable-strategies/

Les �l�ments suivants sont du mat�riel de lecture en option:

R�seaux de m�lange Densit�: blog.otoro.net/2015/06/14/mixture-density-networks/
R�seaux M�lange de densit� avec tensorflow: blog.otoro.net/2015/11/24/mixture-density-networks-with-tensorflow/

Si vous n'�tes pas familier Variational Autoencoders, s'il vous pla�t lire le tutoriel suivant:

Variationnelle Autoencoder en tensorflow: https: //jmetzen.github.io/2015-11-27/vae.html
B�timent Autoencoders � Keras: https: //blog.keras.io/building-autoencoders-in-keras.html
G�n�ration des images grand format Latent vecteurs: blog.otoro.net/2016/04/01/generating-large-images-from-latent-vectors/

Si vous n'�tes pas familier g�n�ration de s�quence continue RNN, s'il vous pla�t lire les documents suivants:

G�n�ration des s�quences r�cidivante R�seaux de Neurones: https: //arxiv.org/abs/1308.0850
Une repr�sentation neuronale de croquis Dessins: https: //arxiv.org/abs/1704.03477
Generation Demo dans l'�criture manuscrite tensorflow: blog.otoro.net/2015/12/12/handwriting-generation-demo-in-tensorflow/
R�seau r�current Neural Tutoriel pour les artistes: blog.otoro.net/2017/01/01/recurrent-neural-network-artist/

Original: http: //blog.otoro.net/2018/06/09/world-models-experiments/

Route de la soie

Apprenez � conna�tre la Chine

exp�rience � Code + tutoriel � reproduire le � mod�le du monde �, mani�re sans supervision train rapide

Param�tres du logiciel

Ex�cuter mod�le pr�-formation

D�s le d�but de la formation

contribution