La profondeur de l'apprentissage par renforcement de l'entr�e au ma�tre: l'exemple Cartpole d'introduire la strat�gie et gradient Doom (Partie IV)

Cet article est une compilation de technologie blog AI Yanxishe, le titre original:

Une introduction � la politique D�grad�s avec Cartpole et Doom

Auteur | Thomas Simonini

Traduction | Actes Ashmore

Relecture | sauce poire finale Fan | soeur d'ananas

Lien original:

https://medium.freecodecamp.org/an-introduction-to-policy-gradients-with-cartpole-and-doom-495b5ef2207f

La profondeur de l'apprentissage par renforcement de l'entr�e au ma�tre: l'exemple Cartpole d'introduire la strat�gie et gradient Doom (Partie IV)

article environnement

Cet article fait partie de l'utilisation des cours d'apprentissage de renforcement en profondeur tensorflow. Cliquez ici pour voir le programme.

Au cours des deux derniers articles sur Q- apprentissage et l'apprentissage en profondeur Q, nous avons termin� un algorithme d'apprentissage de renforcement bas�e sur la valeur � apprendre. Dans un �tat donn�, nous choisissons d'agir avec la valeur Q le plus �lev� (r�compense maximale pr�vue dans tous les �tats) de. Par cons�quent, en fonction de la valeur de l'apprentissage, une politique existe que pour l'�valuation de la valeur de ces actions.

Aujourd'hui, nous allons apprendre la strat�gie � base de gradient strat�gies techniques dites d'apprentissage par renforcement. Nous utiliserons deux organismes de renseignement. On apprendra � maintenir le bois de l'�quilibre.

Le second agent apprend la valeur de la vie et � la survie dans l'environnement hostile de la collecte de la s�rie Doom dans.

Dans l'approche bas�e sur des r�gles, diff�rentes de l'apprentissage Pouvez-vous nous dire l'�tat d'une fonction donn�e et la valeur de la somme des actions au titre de la sentence arbitrale, afin que nous puissions apprendre la fonction politique de l'Etat directement mis en correspondance agir (ne choisissez pas de se d�placer dans la fonction de valeur).

Cela signifie que nous ne pas directement tentative par essai et strat�gie d'optimisation de la fonction co�t fonction d'erreur , param�trique directe (ne choisissent pas de se d�placer dans la fonction de valeur).

Bien s�r, je peux �tre optimis� les param�tres de la politique en fonction de la valeur. Mais la fonction de valeur ne sera plus utilis�e pour s�lectionner l'action.

Cet article apprendra les �l�ments suivants:

Quelles sont les strat�gies gradient, ses avantages et ses inconv�nients;
Comment appliquer tensorflow.

Pourquoi utiliser la fonction politique

Deux types de strat�gies: d�terministes ou al�atoires.

Une strat�gie d�finie peut �tre mis en correspondance avec le comportement de l'�tat. Entrer dans un �tat, le comportement de la fonction de r�troaction � ex�cuter.

D�terminer la strat�gie utilis�e dans certaines circonstances, la mise en uvre de l'action environnementale d�termine le r�sultat, il n'y a pas d'incertitude. Par exemple, lorsque vous jouez aux �checs les soldats d�plac�s de A2 A3, �tes-vous s�r de vouloir d�placer des soldats A3.

D'autre part, un ensemble al�atoire de comportement de sortie de la politique d'une cession possible.

Cela signifie que le comportement n'est pas correct de choisir un, mais nous pouvons �tre en mesure de choisir un autre (par exemple 30% du possible, nous choisissons le sud).

tactiques al�atoires utilis�s dans des conditions incertaines. Ce proc�d� est �galement appel� une partie mesurable du processus de d�cision de Markov (POMDP).

Dans la plupart des cas, nous utilisons le deuxi�me type de politique.

sup�riorit�

Q �tude approfondie a �t� tr�s puissant, pourquoi la m�thode d'apprentissage par renforcement des politiques?

�tude approfondie a trois principaux avantages de l'utilisation du gradient de la politique:

convergence

fonction meilleure politique de convergence. fonction de valeur il y a un probl�me qui est un grand choc lors de l'entra�nement. En effet, le comportement de la s�lection de la valeur estim�e du comportement peut �tre des baisses spectaculaires.

D'autre part, l'utilisation du gradient de strat�gies, nous suivons tout le gradient de trouver la meilleure valeur. Une mise � jour lisse se produit � chaque �tape.

Depuis trouver le meilleur suivi de la valeur de gradient, nous nous assurons que Converge � un maximum local (dans le pire des cas) ou le maximum global (meilleur cas).

Strat�gie gradient est plus efficace dans l'espace de grande dimension

Le second avantage est un gradient de strat�gie plus efficace dans l'espace de grande dimension ou d'une action continue.

Q apprentissage d'un probl�me de profondeur est qu'il se voit attribuer un score pour chaque possible compte tenu de l'�tat actuel de comportement dans toutes les �tapes de pr�diction (pr�dire l'avenir afin de maximiser la r�compense).

Mais si les possibilit�s infinies d'action?

Par exemple, lorsque le pilote automatique, dans chaque �tat, il peut y avoir un comportement de choix quasi illimit�. (R�glage de roues 15 �, 17,2 �, 19,4 �, sifflet ...). Nous avons besoin de produire une valeur Q pour chaque action.

D'autre part, la fonction politique, pour r�gler directement les param�tres (vous devez comprendre ce qui est la valeur maximale), plut�t que la valeur maximale � chaque �tape des estimations.

gradient strat�gie peut apprendre des tactiques al�atoires

Le troisi�me avantage est la politique gradient peut apprendre la strat�gie al�atoire, alors que la valeur de la fonction ne peut pas. Cela conduit aussi � deux r�sultats.

Tout d'abord, on n'a pas besoin de peser l'exploration et le d�veloppement des applications. Une politique al�atoire permet � l'agent dans l'�tat plut�t que l'exploration spatiale a utilis� le m�me comportement. En effet, il �met un comportement sur l'ensemble des distributions de probabilit�. En cons�quence, il traitera de l'exploration et l'exploitation des compromis plut�t que cod�s en dur.

Nous enlevons les probl�mes de confusion per�us, il est aussi que nous regardons deux (ou en fait) dans le m�me �tat, mais n�cessitent un comportement diff�rent.

Par exemple, nous avons un aspirateur intelligent, son objectif est d'�viter siphonner les hamsters de poussi�re et de tuer.

Cet exemple est David Silver de cours fines conduit �: http: //www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files/pg.pdf

Notre aspirateur ne peut d�tecter o� les murs.

Question: Deux carr�s rouges ressemble � l'�tat parce que l'agent peut percevoir et sur les deux c�t�s de la partie de paroi.

Pour d�terminer la strat�gie dans un �tat rouge, l'agent choisir soit � droite ou � gauche, peut conduire l'agent et ne peut pas �tre bloqu� nettoyage.

En renfor�ant l'algorithme fond� sur la valeur, nous apprenons une strat�gie qualitative pr�cise (? Strat�gie Greedy). En cons�quence, l'agent a trouv� la poussi�re avant qu'elle ne prenne beaucoup de temps.

D'autre part, une strat�gie d'optimisation stochastique de fa�on al�atoire au r�seau gris gauche ou � droite. En cons�quence, l'agent ne sera pas bloqu�, et peut atteindre l'�tat cible au maximum possible.

d�favoris�

Il existe un gradient politique naturel gros d�savantage. Dans la plupart des cas, il converge vers un maximum local plut�t que le maximum global.

�tape strat�gie par la convergence de la convergence de gradient �tape est tr�s lent, prend beaucoup de temps � former, ce qui est diff�rent des m�mes efforts pour trouver un apprentissage de profondeur maximale globale Q.

N�anmoins, nous verrons une solution au probl�me.

strat�gies

R�partition de probabilit� param�tres de la politique de jeu d'action de sortie de .

Compte tenu de l'�tat de S, pris avec la probabilit� d'un param�tre de mesure

La chose effrayante est de savoir comment nous savons que notre strat�gie est une bonne strat�gie?

Rappelez-vous la politique peut �tre consid�r�e comme des probl�mes d'optimisation. Nous devons trouver le meilleur param�tre () pour maximiser la fonction score J ().

Il y a deux �tapes:

Strat�gie en utilisant la fonction de notation J () est mesur�e en masse [pi] (politique) de.
En utilisant l'ascension du gradient pour trouver les param�tres de strat�gie optimale pour am�liorer .

L'id�e principale est ici comment J () pour dire notre strat�gie . l'ascension du gradient strat�gie nous aidera � trouver la meilleure strat�gie pour optimiser les op�rations d'�chantillonnage de bons param�tres.

La premi�re �tape: la fonction de notation Strat�gie J ()

Pour �valuer dans quelle mesure notre strat�gie, nous utilisons la fonction objective (ou les fonctions politiques) pour calculer la strat�gie de r�compense attendue.

Il existe trois fa�ons �quivalentes � des strat�gies d'optimisation. S�lectionnez ne d�pend que de l'environnement et des objectifs.

Tout d'abord, dans un sc�nario d'environnement, on prend une valeur de d�part, et de calculer la valeur moyenne de la premi�re �tape (G1) � partir des commentaires. Ceci est la r�compense de la cumulative � tarif r�duit toute la sc�ne.

L'id�e est simple, qui est, si je dois partir de l'�tat s1, le prix global de l'Etat du d�but � l'�tat final est combien?

Nous cherchons � maximiser la strat�gie G1 car elle est la strat�gie optimale peut �tre trouv�e dans le premier article explique les hypoth�ses de prix.

Par exemple, dans un jeu d'�vasion, mon nouveau jeu un jeu, mais je d�truit apr�s 20 briques balle perdue (jeu plus). Le nouveau sc�nario commence toujours par le m�me �tat.

J'utilise J1 () pour calculer le score. Hit 20 tuiles d�j� bonne, mais je veux am�liorer score. Pour ce faire, je dois passer le r�glage des param�tres de distribution de probabilit� pour am�liorer mon comportement. Ceux-ci font dans une deuxi�me �tape. Dans un environnement continu, parce que nous ne pouvons pas compter sur un �tat de d�marrage sp�cifique, afin que nous puissions utiliser la moyenne. Chaque valeur d'�tat pond�r�e par la probabilit� d'�tat correspondant se produit (puisque certains sont plus susceptibles de se produire).

En troisi�me lieu, la prime moyenne pour chaque �tape afin que chaque pas que nous devons obtenir la plus haute r�compense.

Deuxi�me �tape: ascension du gradient Strat�gies

Nous avons une fonction de notation de strat�gie nous raconte comment une bonne strat�gie. Maintenant, nous voulons trouver le param�tre maximisent la fonction de notation. Maximiser les moyens de fonction de score de trouver la politique optimale.

Afin de maximiser la fonction score J (), nous devons faire l'ascension de d�grad� sur les param�tres de la politique.

La hausse gradient de descente de gradient est invers�. Rappelez-vous toujours pointer vers les plus raides des changements de gradient.

En descente de gradient, on choisit la direction de descente plus raide dans la fonction. De m�me, lorsque la mont�e de gradient, nous choisissons la direction de mont�e plus raide dans la fonction.

Pourquoi ne pas l'ascension du gradient de descente de gradient? Parce que nous voulons utiliser pour la descente de gradient minimum dans la mauvaise fonction.

Mais la fonction de score n'est pas une fonction d'erreur, ce qui n�cessite le maximum, nous utilisons donc l'ascension du gradient.

L'id�e est de trouver le gradient appropri�, de sorte que la politique actuelle tc plus des param�tres de mise � jour incr�mentielle dans la direction d'it�ration.

Maintenant, le contenu math�matique let, un peu difficile ici, mais cela est la base pour comprendre comment obtenir la formule de gradient.

Nous voulons trouver le param�tre meilleur * pour maximiser score:

Notre fonction de score peut �tre d�fini comme suit:

Il est pr�vu d'attribuer la somme � une strat�gie donn�e.

Maintenant, parce que nous devons faire l'ascension gradient, donc nous allons � la fonction diff�rentielle score J (). Il peut �galement �tre d�fini comme suit:

Nous �crivons la fonction de cette fa�on de montrer les probl�mes auxquels nous sommes confront�s.

Nous savons comment influencer le comportement des param�tres politiques sont s�lectionn�s, qui est, quel genre de r�compense que nous recevons, nous verrons quel genre d'�tat, � quelle fr�quence.

Par cons�quent, rechercher afin d'assurer un changement de politique am�lioration peut �tre un d�fi. En effet, la performance d�pend de la s�lection du comportement et choisissez l'�tat apr�s avoir fait la distribution. toutes deux sont soumis � des param�tres de la politique d'influence. Influencer les param�tres de la politique sur le comportement est tr�s facile � trouver, mais comment trouver l'impact de la politique dans le cas de la distribution de l'�tat? environnement La fonction est inconnue.

Par cons�quent, nous sommes confront�s � la question suivante: Lorsque le gradient d�pend de l'impact inconnu des changements de politique � la distribution de l'�tat, nous utilisons la strat�gie correspondante pour �valuer la fa�on dont le gradient.

La solution consiste � utiliser des strat�gies principe gradient. Les strat�gies impliquent l'utilisation des diff�rences [theta] ne comprend pas l'�tat de la distribution, est de fournir un J Analytique () (en performance) du gradient Fig.

, Nous avons calcul� comme suit donc:

Rappelez-vous, nous sommes dans le cas de la politique al�atoire. Cela signifie que notre sortie de la politique d'une distribution de probabilit� (; ). Il sortie la probabilit� de prendre des mesures (s0, a0, ...) r0 quand donn� le param�tre courant .

Cependant, � la fonction de probabilit� diff�rentielle, il est plus difficile, � moins que nous pouvons le convertir dans un journal. Cela rendra la fonction de probabilit� peut �tre facilement diff�renci�e.

Ici, nous allons venir � remplacer une partie des r�sultats de la probabilit� d'utilisation dans le journal du rapport de vraisemblance.

Maintenant, la somme de let sera converti en un choix:

Comme vous pouvez le voir, il suffit de calculer la d�riv�e de la fonction politique du journal.

Nous avons fait beaucoup de d�rivation, maintenant, nous pouvons tirer la strat�gie de gradient de conclusion:

Ce gradient de strat�gie nous dit que si vous voulez obtenir un score plus �lev� en changeant le param�tre devrait �tre la fa�on de changer la strat�gie de distribution.

R (tau) valeurs scalaires telles que:

Si R (tau) �lev�, cela signifie que nous prenons l'action moyenne de cas conduirait � des r�compenses plus �lev�es. Nous voulons promouvoir la probabilit� de comportement observable (augmenter la probabilit� de prendre ces actions).

D'autre part, si R (tau) est faible, nous devons r�duire la probabilit� d'un comportement observable.

param�tres de strat�gie gradient conduisent � se d�placer dans la direction du rendement le plus �lev� sur la plupart des mesures de soutien.

gradient de strat�gies Monte Carlo

Dans les notes, compte tenu de notre t�che peut �tre divis�e en plusieurs �tapes, nous allons utiliser la m�thode de Monte Carlo pour concevoir des strat�gies algorithme gradient.

initialize pour chaque �pisode = S0, A0, R1, S1, ..., ST: T 1 � T-1: = theta (log (St, A, )) Gt = + Pour chaque �pisode: A chaque �tape de temps dans cet �pisode: Calculer les probabilit�s d'journaux produits par notre politique fonction. Multipliez-le par la fonction de score. Mettre � jour les poids

Mais nous sommes confront�s � un probl�me lors de l'utilisation de cet algorithme. Parce que nous calculons que la valeur de R � la fin de chaque �tape, nous allons tous le comportement moyen. M�me si une partie du comportement est tr�s mauvais, si nos scores sont tr�s �lev�s, de sorte que toutes les actions seront en moyenne � bonne.

Avoir une bonne politique, nous avons besoin d'un grand nombre d'�chantillons, ce qui entra�nera l'apprentissage tr�s lent.

Comment am�liorer le mod�le?

Nous verrons les am�liorations suivantes dans l'article suivant:

�valuateur du comportement: un m�lange d'algorithmes de valeur et des algorithmes de strat�gies.

strat�gie proximale gradient: une strat�gie pour assurer l'�cart proche est relativement faible.

Application dans Cartpole et Doom dans

Nous avons pris une vid�o, l'utilisation tensorflow strat�gie application de jeu Doom agent gradients dans le mode de la mort:

Politique D�grad�s jouant Doom deathmatch ?? avec tensorflow (tutoriel)

Vous pouvez acc�der directement notes: prise en pension d'apprentissage profond renforcement du cours.

En r�sum�, vous avez cr�� un apprentissage peut survivre dans l'environnement de l'agent Doom. Puissant lui!

Ne pas oublier d'utiliser personnellement chaque partie du code, ce qui est tr�s important. Essayez l'�ge, changer l'architecture, de modifier le taux d'apprentissage, en utilisant un meilleur environnement mat�riel et ainsi de suite, en profiter!

Dans le prochain article, je vais discuter des derni�res am�liorations en mati�re d'apprentissage de la profondeur Q:

Double DQN
R�seau de la concurrence
valeur fixe Q
R�p�tez la priorit� de l'exp�rience

Je veux continuer � voir les articles liens et r�f�rences connexes?

Appuyez sur et cliquez pour ouvrir un lien ou cliquez sur le fond de la profondeur de l'apprentissage de renforcement [de l'entr�e � ma�triser: l'exemple Cartpole pour pr�senter la strat�gie et gradient Doom (Partie IV)]:

https://ai.yanxishe.com/page/TextTranslation/1406

AI Yanxishe contenu passionnant mis � jour quotidiennement, la visualisation de contenu plus excitant: Lei Feng Lei Feng Lei r�seau de r�seau de r�seau Feng

PyTorch que nous faisons avec la d�tection d'objet et le suivi

l'apprentissage de la machine doit faire avec des collections de biblioth�ques importantes Python

Comment les d�butants �tude sur la migration Keras

Un article que vous lisez avec un WaveNet: assistant Google synth�tiseur sonore

En attendant vous interpr�tez:

Route de la soie

Apprenez � conna�tre la Chine

La profondeur de l'apprentissage par renforcement de l'entr�e au ma�tre: l'exemple Cartpole d'introduire la strat�gie et gradient Doom (Partie IV)

Pourquoi utiliser la fonction politique

Comment am�liorer le mod�le?

Application dans Cartpole et Doom dans

PyTorch que nous faisons avec la d�tection d'objet et le suivi

l'apprentissage de la machine doit faire avec des collections de biblioth�ques importantes Python

Comment les d�butants �tude sur la migration Keras

Un article que vous lisez avec un WaveNet: assistant Google synth�tiseur sonore

Apprentissage par renforcement: menant � un syst�me ax� sur le comportement �motionnel

Comment construire un mod�le LSTM Keras, et le r�glage des param�tres

DQNs Senior: Tirer profit de la profondeur de l'apprentissage de renforcement pour jouer au jeu Pac-Man

r�seau de contr�le structur� pour la profondeur de l'apprentissage de renforcement (papiers ICML expliquent)