la source PARL trajet - en utilisant l'algorithme de gradient de politique pour r�soudre la chasse au tr�sor des probl�mes de labyrinthe

Il n'y a pas longtemps, Baidu a publi� la profondeur du cadre d'apprentissage de renforcement PaddlePaddle � base de PARL.

Comme une attitude apprentissage par renforcement blanc, je ch�ris l'apprentissage, installer et ex�cuter le PARL dans le d�marrage rapide. Ne pas l'exp�rience ne sais pas, une exp�rience tressaillement, est en effet une �quipe de championnat chef-d'oeuvre NeurIPS 2018, une bonne lisibilit� du code, la fonction est tr�s claire, un couplage faible entre les modules, coh�rents et forts. Non seulement pour le blanc DRL base z�ro rapidement mis en place l'environnement, mais aussi tr�s appropri� pour les chercheurs de reproduire les r�sultats du document.

Ado, nous apprenons le plus de renforcer l'exemple classique - le d�but du tr�sor labyrinthe (commun�ment appel� monde grille GridWorld), avec un gradient de politique algorithme (Politique-Gradient) � l'exp�rience d'une PARL.

Environnement de simulation

La prise de d�cision intelligente pour r�soudre les probl�mes d'apprentissage de renforcement. Comme on le voit, �tant donn� comme suit labyrinthe, carr� noir repr�sente le mur, tr�sors jaune, rouge pour le robot, un d�marrage, le robot est dans une position quelconque, puisque le pouvoir d'aller un peu plus loin, apr�s avoir heurt� le mur dans le besoin de r�paration, nous avons donc besoin de former un mod�le, de dire au robot comment �viter de frapper le mur, et donne la meilleure chasse au tr�sor de chemin.

Ensuite, d�finir les diff�rents �l�ments n�cessaires pour renforcer l'environnement d'apprentissage: Etat de l'Etat, l'action d'action, r�compense de r�compense et ainsi de suite.

�tat dans lequel la position du robot est, par (ligne, colonne) �l�ment de ce groupe est repr�sent�, tandis que la paroi peut �tre exprim�e:

self.wallList = self.start = (0,4) self.end = (4,0)

En utilisant la strat�gie de d�marrage al�atoire pour atteindre la fonction remise � z�ro pour augmenter le caract�re al�atoire de l'�tat initial:

defreset (auto-): pour _ dans la plage (0,1024): i = np.random.randint (self.row) j = np.random.randint (self.col) if (i, j) ne pas en self.wallList et (i, j) = self.end !: self.pos = (i, j) pause self.pos de retour

action action d�finie, il est clair que le robot peut marcher dans quatre directions:

action_dim = 4 Drow = dCol =

D�finir la r�compense d'incitations, des incitations pour atteindre la ligne d'arriv�e 10, prendre l'autre puissance des besoins de la grille, des incitations � -1:

r�compense def (self, s): si le self.end de s: retour 10.0 autre: retour -1,0

De plus, transfrontali�re, appuyez sur la n�cessit� de mur pour donner peine plus s�v�re:

sinon CheckBounds (nextRow, nextCol): # Transfrontali�re self.pos de retour, -5,0, Faux, { 'code': - 1, 'MSG': '! OutOfBounds'} nextPos = (nextRow, nextCol) si meetWall (self.wallList, nextPos): # mur self.pos de retour, -10,0, Faux, { 'code': - 1, 'MSG': '! MeetWall'}

Jusqu'� pr�sent, l'�tat n�cessaire pour am�liorer l'apprentissage, l'action, la r�compense sont d�finis. Ensuite, regardez le principe de l'algorithme de gradient de politique de simple d�duction.

Quel gradient de strat�gies d'algorithme (Politique-gradient)?

Nous savons que l'objectif de l'apprentissage est de renforcer donn� un processus de d�cision de Markov, pour trouver la strat�gie optimale. Fait r�f�rence � un �tat appel� op�ration de cartographie des politiques, des symboles communs repr�sentent , il se r�f�re � une distribution de, jeu d'action d'un �tat donn�, qui est:

approche gradient strat�gie est tr�s simple, directe pour trouver la strat�gie optimale de mod�lisation param�trique, strat�gie p (a | s) � partir d'une collection de probabilit� devient une p fonction de densit� de probabilit� (a | s, ), � savoir:

Cette fonction de strat�gie repr�sente, dans le cas o� un �tat donn� s et le param�tre de probabilit� de prise de toute action possible, ce qui est une fonction de densit� de probabilit�, dans l'application pratique de la politique lorsque, conform�ment � l'action de l'op�ration de distribution de probabilit� �chantillonn�s cette distribution peut �tre discr�te (tels que la distribution de Bernoulli), il peut �tre consid�r� comme continu (par exemple gaussienne). La fa�on la plus intuitive, nous pouvons utiliser un mod�le lin�aire indique que la fonction politique:

Dans laquelle (s) repr�sentant les caract�ristiques des uvres sur l'�tat s, est les param�tres de formation requis. Une telle mod�lisation � quoi bon? En fait, le plus grand avantage est que nous pouvons apprendre toujours une strat�gie al�atoire, am�lior� l'exploration exploratoire.

Pourquoi peut augmenter Exploratoire il?

Une telle chasse au tr�sor labyrinthe, supposons une position de d�part du robot dans le coin en haut � gauche, puis p (a | s, ) peut �tre initialis� , montrer le robot sur le haut, le bas, � gauche, � droite, la probabilit� est de 0,25. Lorsque le mod�le de la formation dans une certaine mesure, p (a | s, ) devient , � ce moment, en baisse la probabilit� maximale, 0,6, les robots sont les plus susceptibles de descendre, cette �tape a montr� l'utilisation de l'exploitation, mais la strat�gie optimale est en fait tout de suite, 0,2 est susceptible d'�tre s�lectionn�, cette �tape a montr� explorer l'exploration, par rapport � 0,6 et 0,2, en haut, � gauche deux actions beaucoup plus faible probabilit�, mais il est �galement susceptible d'�tre s�lectionn�. Si le mod�le continue � suivre une formation, p (a | s, ) est susceptible de Converge � A ce moment, le robot fondamentalement juste ou � droite pour s�lectionner haut, la gauche la possibilit� de sur la tr�s petite. Tel est le cas le plus position de coin sup�rieur gauche (�tat) et d'autres Etats, avec le mod�le de formation vont converger vers la solution optimale.

Avec le mod�le, nous nous attendons � gradient de la demande, alors, comment construire la perte de la fonction? Qu'est-ce que l'�tiquette y-cible est?

Est-ce une id�e tr�s simple: r�compense si une action pour obtenir plus, il augmente la probabilit�, ou r�duire, de sorte que vous pouvez construire un �tat pertinent - la fonction f (s, a) l'action en fonction de la perte des poids, la fonction de pond�ration peut �tre un rendement � long terme G (t), la valeur d'�tat peut �tre une fonction V (s), ou peut �tre l'�tat - la fonction de comportement Q (s, a), bien s�r, il peut �tre fonction avantageuse A. Toutefois, les fonctions de pond�ration et les param�tres ind�pendants de [theta], [theta] est �gal � 0 le gradient, comme p | coefficients (a s, ) de.

Consid�rons maintenant la sortie du mod�le (a | s, ), qui repr�sente la distribution de probabilit� d'action, nous savons que l'agent Apr�s chaque �pisode tour, formera une Trajectoire de piste compl�te:

Parmi eux, l'�tat

Et, quel que soit le param�tre de la probabilit� de transition d'�tat P (S'| s, a) il est d�termin� par l'environnement, et �galement ind�pendant du param�tre . Par cons�quent, notre objectif est de simplifier: param�tres d'optimisation [theta], de telle sorte que le produit des probabilit�s de chaque action

Le maximum, m�me si trop

La probabilit� que multiplie le maximum disponible formul� comme suit:

Ceci est �videmment familier probl�me d'estimation du maximum de vraisemblance, dans la fonction log-vraisemblance:

Par le poids f (s, a), a �t� construit comme suit fonction objectif, la fonction objective et la fonction de la perte que nous voyons habituellement au contraire, il a besoin d'utiliser une mont�e de gradient pour trouver la valeur maximale:

Notes, aTrue est l'�tiquette y-cible, montrant ici un agent de l'Etat prend $ s_ {t} $ fonctionnement en temps r�el, peuvent �tre obtenus en fonction de la trajectoire de la piste �chantillonn�. apprentissage des �l�ves de la machine ont appris tout savoir, avec la fonction objectif g�n�ral moyenne au lieu de la somme, en tant que nouvelle fonction objectif:

La moyenne est l'esp�rance math�matique, de sorte que la fonction objective peut �tre exprim�e comme suit:

Avec la fonction objectif, il est facile de calculer le gradient, �tant donn� que

Le coefficient de , il formule gradient est comme suit:

Alors, comment la manifestation concr�te de la politique? A �t� mentionn� pr�c�demment, la politique peut �tre discr�te ou continue, tenez compte de la strat�gie discr�te. Parce que nous devons r�soudre le probl�me de maximum, ce qui est le probl�me de la pente ascendante, le gradient pensera naturellement du probl�me de la descente de pente ascendante en question, de mani�re � faire le contraire de la fonction objective est r�duite au minimum, et quel genre de fonctions peut �tre descente de gradient et logarithmique fonction associer? nous sommes �videmment au courant de l'entropie crois�e, de sorte que la perte finale est d�termin�e en fonction de:

strat�gies continues et discr�tes strat�gie de d�rivation est similaire au lecteur int�ress� peut se r�f�rer � la documentation pertinente.

Depuis lors, la formule de d�rivation peut venir � une fin. L'algorithme de gradient de la strat�gie de base est Renforce, �galement connu comme strat�gie de gradient Monte Carlo, appel� MCPG, algorithme de politique gradient officiel de PARL est bas� sur le cadre suivant pour la mise en uvre:

structure source PARL

Avant de construire le mod�le, nous analysons d'abord les principaux modules de PARL:

1. env: environnement, o� l'environnement est la chasse au tr�sor labyrinthe.

2. Mod�le: mod�le, peut �tre un mod�le lin�aire simple, il peut �tre CNN, RNN et autre mod�le d'apprentissage en profondeur.

3. algorithme: algorithme, la couche de mod�le est encapsul� en utilisant Predict mod�le (pr�vue), tandis que la fonction de perte construit apprentissage (apprentissage), des formes sp�cifiques de mise en uvre peuvent �tre DQN, PG, GPDD analogues.

4. Agent: Agent pour l'algorithme de la couche d'encapsulation, comprenant g�n�ralement pr�voir, savoir deux fonctions en m�me temps, �tant donn� que l'agent en m�me temps EXPLORATION � explorer l'utilisation de l'exploitation, qui comprend souvent une fonction d'�chantillonnage qui est d�termin�e � la fin randomSelect (la s�lection al�atoire ou une fonction de distribution de l'action de s�lection), ou argmax (100% gourmand, toujours s�lectionner l'op�ration de vraisemblance maximum).

5. train: la formation et les tests pour l'agent et l'environnement interagissent pour atteindre, lorsque la convergence du mod�le, vous pouvez tester la pr�cision de l'agent.

6. utils: D'autres fonctions auxiliaires.

Le sch�ma d'architecture suivante qui peut nous aider � mieux comprendre PARL:

La lecture du code source &

Apr�s avoir compris le cadre de chaque module, nous pouvons remplir le code selon le mod�le, appris MVC, ORM cadres tels que les �l�ves savent, c'est une chose tr�s agr�able.

1, MazeEnv. environnement Maze, h�rit�e de gym.Env, pour parvenir � une remise � z�ro, �tape, r�compense, rendre quatre m�thodes principales, ne pas les r�p�ter ici.

2, MazeModel. mod�les de la couche, pour construire un r�seau de neurones que la liaison ensemble, l'�tat d'entr�e est l'�tat de l'entr�e, la sortie est une fonction de l'action sur la politique, �tant donn� que la fonction de distribution de probabilit� est une op�ration de politique, de sorte que l'utilisation en tant que fonction d'activation softmax, il existe plusieurs couche cach�e interm�diaire.

Code mise en uvre est tr�s simple, si MazeModel h�riter de la classe officielle mod�le, puis construire un mod�le � Zhaomaohuahu:

classe MazeModel (mod�le): def__init __ (self, act_dim): self.act_dim = act_dim hid1_size = 32 hid2_size = 32 self.fc1 = layers.fc (taille = hid1_size, act = 'tanh') self.fc2 = layers.fc (taille = hid2_size, act = 'tanh') self.fcOut = layers.fc (taille = act_dim, act = 'softmax') defpolicy (self, obs): out = self.fc1 (obs) out = self.fc2 (out) out = self.fcOut (out) retour sur

3, policy_gradient. couche algorithme, d�p�t officiel fournit un certain nombre d'algorithmes d'apprentissage de renforcement classique, on n'a pas besoin de me r�p�ter � �crire, biblioth�que d'algorithmes d'algorithme de PolicyGradient de r�utilisation directe (parl.algorithms) � l'int�rieur!

Policy_gradient une simple analyse de la mise en uvre du code source.

fonction define_predict, le obs d'�tat de r�ception, la m�thode politique mod�le d'appel, l'�tat de sortie de l'action correspondante:

def define_predict (self, obs): � � � Mod�le de politique Utilisez self.model pour pr�dire la actionprobability � � " self.model.policy de retour (obs)

fonction define_learn, l'�tat r�ception obs, l'action en direct action, r�compense de rendement � long terme, le premier mod�le de la m�thode pocliy d'appel, l'�tat pr�dit la probabilit� d'action obs act_prob de distribution correspondant, le co�t fonction de perte configuration entropie crois�e et produit r�compense, et effectue finalement descente de gradient France, l'optimiseur � Adam, pour compl�ter la fonction d'apprentissage:

def define_learn (self, obs, action, r�compense): � � � Mod�le de politique de mise � jour self.model avec la politique gradientalgorithm � � " act_prob = self.model.policy (obs) log_prob = layers.cross_entropy (act_prob, action) co�t = log_prob * r�compense co�t = layers.reduce_mean (co�t) optimiseur = fluid.optimizer.Adam (self.lr) optimizer.minimize (co�t) co�t retour

4, MazeAgent. Agent. Dans laquelle package simple, self.pred_program define_predict dans l'algorithme, package simple self.train_program dans l'algorithme de define_learn, on peut se r�f�rer � l'CartpoleAgent officiel atteint, remplissage dans le cadre correspondant selon le code de format de mod�le.

Ici, seule l'analyse self.pred_program, self.train_program libell� similaire:

self.pred_program = fluid.Program () # libell� fixe avec fluid.program_guard (self.pred_program): obs = layers.data ( name = 'obs', forme = , DTYPE = 'float32') # entrant recevoir le statut externe obs self.act_prob = self.alg.define_predict (obs) # Algorithme d'appel probabilit� de define_predict, self.act_prob pour les op�rations de la distribution

fonction �chantillon, attention � cette phrase:

agir = np.random.choice (plage (self.act_dim), p = act_prob)

Cette phrase montre une distribution de probabilit� correspondant � l'action choisie au hasard, l'hypoth�se, le bas, � gauche et � droite, respectivement probabilit� , alors la probabilit� est maximale est s�lectionn�e, la s�lection droite la probabilit� est minime, donc la fonction �chantillon � la fois d'exploration, mais aussi l'exploitation, l'exploration refl�te l'apprentissage am�lior� - l'utilisation de l'�quilibre.

Diff�rentes fonctions pr�disent, et la fonction �chantillon est qu'il est toujours avide de s�lectionner la possibilit� maximale d'action, souvent pour les �tapes d'essai:

act = np.argmax (act_prob)

apprendre la fonction, en obs, action, r�compense, descente de gradient de charge, le rendement co�t de la fonction de perte.

5, TrainMaze. Laissez environnement env Interact et d'agent d'agent, le plus important est le code suivant, ce qui refl�te le processus MCPG:

# It�ratives cent mille �pisode for i in range (1,100001): # �chantillon obs_list, action_list, reward_list = run_train_episode (env, agent) # En utilisant la moyenne mobile calcul�e d'une mani�re r�compense attendue MeanReward = MeanReward + (somme (reward_list) -MeanReward) / i batch_obs = np.array (obs_list) batch_action = np.array (action_list) # Calcul G (t) au moyen de sauvegarde et normalis� batch_reward = calc_discount_norm_reward (reward_list, GAMMA) # apprentissage agent.learn (batch_obs, batch_action, batch_reward)

Parmi eux, la moyenne mobile peut choisir une formule, des estimations non biais�es repr�sentent la moyenne r�elle, biais�e estimer le prix moyen apr�s une plus grande convergence:

estimation non biais�:

estimation biais�s:

[Alpha] est le taux d'apprentissage, 0,1, 0,01, et ainsi de prendre

D'autres codes sont des fonctions auxiliaires, telles que l'enregistrement journal, le dessin, ce qui rend l'environnement et ainsi de suite.

Ex�cutez le programme et observer les r�sultats

Ex�cuter TrainMaze, nous pouvons voir la sortie suivante.

1, avant la formation, le robot ne sait pas comment tr�sor, donc transfrontalier, le nombre de frapper le mur beaucoup, mais autour de beaucoup de d�tours, le prix moyen est relativement faible.

ErrorCountBeforeTrain: 25052 # nombre de mur transfrontalier +

La courbe de r�compense moyenne:

2, le mod�le de formation. It�ratives cent mille �pisode, observez la courbe d'apprentissage suivant, et l'axe vertical repr�sente la prime moyenne, vous pouvez le voir, le mod�le a converg�:

3, la pr�cision du mod�le de test. Phase de test, nous it�ration 128, l'agent est gu�re transfrontalier ou le comportement de mur, car il est d�marrage al�atoire, donc il y a peu d'incitation sur les fluctuations moyennes, mais stabilis� � 5-7.

ErrorCountAfterTrain: 0 # n'a pas de mur ou transfrontalier

Le prix moyen apr�s la formation:

Adresse source Git

https://github.com/kosoraYintai/PARL-Sample

r�f�rences:

� CS 294-112 � l'UC Berkeley, DeepReinforcement apprentissage.

� Deepmind, Silver.D, Apprentissage par renforcement classe ouverte.

� Feng Chao. Apprentissage par renforcement Essentials . P�kin: Electronic Industry Press, 2018.

Guo Xian Fang Yong pur. L'apprentissage de renforcement Layman . P�kin: Electronic Industry Press, 2018.

Route de la soie

Apprenez � conna�tre la Chine

la source PARL trajet - en utilisant l'algorithme de gradient de politique pour r�soudre la chasse au tr�sor des probl�mes de labyrinthe