------ th�orie de l'apprentissage de renforcement simple et pratique (a)

Cette s�rie d'articles en renfor�ant de mani�re conviviale pour introduire les concepts de base de l'apprentissage, bien que la langue est commune, mais le contenu est encore tr�s rigueur. La plupart des formules utilis�es dans le texte, des formules math�matiques des maux de t�te lecteurs pourraient �tre effray�s, mais si les lecteurs suivent, �tape par �tape vers le bas, vous trouverez la formule naturellement d�riv�e, une compr�hension approfondie de ces concepts de base tr�s utiles. En plus de la th�orie, l'article d�crit �galement le code de mise en uvre pour chaque algorithme, en profondeur des r�ponses � la cl� chaque ligne de code. Que le lecteur � comprendre non seulement la th�orie et les algorithmes, tout aussi savoir comment utiliser le code pour mettre en uvre. Gr�ce � une combinaison de la th�orie et la pratique, plus en profondeur la compr�hension des concepts appris. Les lecteurs ont besoin que des connaissances de base de la programmation Python, le texte de chaque algorithme a un code d'ordinateur portable Jupyter correspondant. (Source, blog Github Li Li)

annuaire

introduction

Markov processus de d�cision (MDP)

Et un environnement interactif

Objectifs et r�compenses

Retour (retour)

propri�t� de Markov

Markov processus de d�cision (processus de d�cision de Markov)

Fonction Valeur (Fonction Valeur)

La fonction de meilleure valeur (Fonctions optimale Valeur)

OpenAI Gym Pr�sentation

Run Environnement

Observation (Observations)

espaces

introduction

Devant nous l'apprentissage supervis�, apprentissage supervis� se caract�rise par un � professeur � pour nous � surveiller � et nous dire quels sont les r�sultats corrects sont. Dans notre petite, il y aura un enseignant pour nous enseigner, l'apprentissage supervis� est essentiellement un transfert de connaissances, mais ne peut pas d�couvrir de nouvelles connaissances. Pour l'humanit� dans son ensemble, le vrai (ou m�me la seule) source de connaissance est la pratique - qui est, l'apprentissage de renforcement. Par exemple, Shen Nong go�t� une centaine d'herbes, les premiers humains ne savaient pas ce que l'herbe peut gu�rir, mais en essayant, seront en mesure d'apprendre de nouvelles connaissances. connaissances acquises enregistr�es par la langue, transmise de g�n�ration en g�n�ration, de mani�re � maintenir l'ensemble des progr�s de la soci�t� humaine. L'apprentissage supervis� et diff�rent, pas un � enseignant � nous � superviser �. Tels que les �checs, personne ne nous dira ce que la situation actuelle la meilleure m�thode est d'aller seulement � la fin du jeu que nous connaissons le r�sultat final, nous avons besoin de re-d�finir leur propre (l'apprentissage) qui est une bonne �tape de d�placement par �tape qui est tr�s bon aux �checs . La nature est la m�me, il ne dit pas si nous devrions coop�rer avec les autres, mais la survie des plus aptes, et, finalement, � � dire � notre soci�t� sera plus comp�titive avec l'autre aide. Supervis� et avant l'apprentissage non supervis�, il y a une grande diff�rence par rapport au point: l'apprentissage par renforcement agent qui peut affecter l'environnement par action - tous nos mouvements �tape va changer la situation, il peut �galement �tre chang� pour le mieux peut aller mal.

Il est de r�soudre le probl�me de base est donn� un �tat, nous devons d�terminer sa valeur (valeur). Valeur et r�compense (r�compense) sont les deux concepts les plus fondamentaux de l'apprentissage de renforcement. Pour un agent (apprentissage am�lior� le sujet) il, r�compense est imm�diatement disponible, m�me droit de naissance inh�rente. Dans un tel �tat de la faim, manger r�compensera. La valeur est retard�e, la n�cessit� de calculer et un examen attentif. Par exemple, faim de voler quelque chose � manger peut avoir une r�compense, mais de la valeur (valeur) de l'angle (probablement) n'est pas une bonne action. Pourquoi pas? Bien que les humains sont encadr�s d'apprentissage, tels que les sages nous disent que ce n'est pas �thique, pas un bon comportement. Mais nous l'avons dit, les �tres humains sont la source ultime de l'apprentissage de renforcement des connaissances, les sages O� avez-vous entendu? Certaines personnes pensent que vient de Dieu ou de la nature humaine, tels que � la nature de l'homme est bon, � nous allons discuter de la question de la philosophie dans le dernier chapitre. Si d'expliquer d'un point de vue de l'�volution, les �tres humains qui jouent en fait un jeu de � survie �, les gens doivent suivre l'�thique et ne pas suivre la foule, la nature � dire � notre r�sultat final par la survie des plus aptes, et finalement l'�cole nos Sages � � (en fait, a �t� choisi) cette �thique, et ces normes transmises par l'�ducation (apprentissage supervis�) de g�n�ration en g�n�ration.

Les mod�les d'apprentissage plus de renforcement commun - processus de d�cision de Markov (MDP)

Markov processus de d�cision (processus de d�cision de Markov) est de renforcer le mod�le le plus commun de l'apprentissage. Nous pr�sentons ce mod�le pour renforcer certains des concepts de base de l'apprentissage.

Et un environnement interactif

Renforcer la nature de l'apprentissage se fait par interaction avec l'environnement pour apprendre comment atteindre un objectif. Cet organe de l'apprentissage et de d�cision appel� l'agent. Interaction Agent Object est l'environnement (Environnement), l'environnement peut �tre tr�s flexible, pour asseoir la grenouille au ralenti, son environnement est que la bouche mince, alors que pour l'homme, et m�me la plan�te enti�re dans le syst�me solaire sont notre objet d'�tude. Agent et continuera � interagir avec l'environnement, selon l'�tat actuel du comportement de s�lection (action), alors que le nouvel environnement donnera le statut d'agent et de r�compense. Le processus d'interaction ensemble ci-dessous.

Figure: renforcer et environnement d'apprentissage interactif o� l'agent

Interaction Agent et Hypothesis l'environnement est un temps t = 0,1, .... A l'instant t, agent dans certains StS de l'Etat, o� SS est l'ensemble de tous les �tats possibles, qui, l'espace d'�tat. Il peut choisir un comportement AtA (St), o� A (St) est l'�tat ensemble de toutes les actions St peut �tre s�lectionn�. Apr�s avoir s�lectionn� le comportement � l'environnement sera la suivante (t + 1) temps � l'agent un nouvel �tat St + 1 et + r�compense Rt 1RR.

Que ce soit une valeur r�elle assez de r�compense? H�l�niens, il est la poursuite de nombreux aspects, tels que la prise en compte du travail et de la famille. Bien s�r, la meilleure fa�on est de mettre deux buts (objectif) somme pond�r�e, mais ce changement semble �tre le bon poids, de sorte que les humains ont un seul but, alors que d'autres objectifs sont la repr�sentation ext�rieure? Nous ne sommes pas ici pour discuter de cette question, mais pour la t�che r�elle, il est g�n�ralement suffisant. Tels que les �checs, il est le r�sultat, le jeu jeu Atari est d'obtenir le meilleur score.

A chaque instant t, l'agent sera choisi en fonction de l'�tat actuel du comportement St diff�rent �, appel� la m�thode de la strat�gie de choix (politique), il est g�n�ralement admis qu'une distribution de probabilit� (strat�gie d�termin�e est son cas particulier) t (A | St ), si le processus al�atoire est stationnaire (fixe), de sorte que notre strat�gie est g�n�ralement aussi ind�pendante du temps, � savoir t (a | St) = (a | St). Bonne et mauvaise strat�gie, cible l'agent est la meilleure strat�gie pour apprendre (s'il y a un probl�me th�orique est de renforcer l'apprentissage, mais nous pensons g�n�ralement il y a, il y a quelques th�ories peuvent �tre prouv�s si le syst�me r�pond � certaines hypoth�ses, la strat�gie optimale est l� ).

Objectifs et r�compenses

Chaque fois que t, l'environnement donnera un agent RewardRt, et l'objectif agent (objectif) est de maximiser la r�compense obtenue et tout. Ici, l'implication est: Notre objectif n'est pas r�compense � court terme, r�compense, mais l'accumulation � long terme. En g�n�ral, � l'�cole peut �tre fatigu� d'apprendre, peut �tre heureux de travailler dur sera rentable � terme, si le court terme, la faim � jouer. Ceci est appel� � R�compense si �: nous appelons objectif (objectif) ou de destination (But) peut �ventuellement �tre consid�r� comme un signal de maximize r�compense la valeur accumul�e.

Comme l'a dit avant, avec une valeur num�rique pour d�crire l'ensemble de la cible agent (en particulier les personnes tel complexe biologique) ne semble pas assez, agent Posons dans certaines t�ches sp�cifiques (t�ches) jusqu'� regarder semblait assez. Par exemple, nous faisons une souris pour �chapper au labyrinthe (labyrinthe), si elle ne trouve pas nos exportations vers sa r�compense -1, de sorte que cet objectif d'apprentissage est le plus rapidement possible pour �chapper au labyrinthe. Tels que les �checs, si vous gagnez, nous lui donnons une r�compense, si Shu Qi est -1, un tirage au sort est 0. Un autre exemple est le robot de nettoyage, si elle est de collecter les ordures, puis donnez-lui une r�compense, alors son objectif est de collecter autant de d�chets.

Note: Nous d�finissons l'objectif est de dire � l'agent ce que nous nous attendons � faire est (Quoi?), Plut�t que de dire qu'il comment faire (Comment). Par exemple, quand manger les uns les autres pi�ces d'�checs est une strat�gie gagnante (comment faire), nous ne pouvons pas donner � l'enfant de manger r�compense, ou il peut �tre la strat�gie apprise est de manger les enfants, parce que nous savons que, parfois, doivent sacrifier pour gagner pion son propre.

Retour (retour)

Agent objectif est de maximiser r�compense � long terme la valeur accumul�e, nous allons prendre une d�finition formelle de la valeur accumul�e - en retour. R�compense apr�s prise de temps t est Rt, Rt + 1, ..., et nous nous attendons � la plus grande de ces r�compenses. �tant donn� que l'environnement (pourrait) �tre al�atoire, et une strat�gie agent aussi (probablement) au hasard, de sorte que le but est de maximiser l'agent Accumuler de r�compense et les attentes. retour Gt est d�fini comme suit:

Gt = Rt + 1 + 2 + Rt + Rt + 3 + ... + RT

O� T est le dernier moment. Certaines t�ches seront une fin de l'�tat, de l'�tat initial de la t�che � l'�tat final, nous l'appelons un �pisode. Tels que les �checs, jeu d'�checs depuis le d�but au vainqueur final (ou un match nul) la fin d'un jeu est appel� un �pisode. Si nous commen�ons un nouvel �pisode, comme un jeu d'�checs de red�marrage, puis le statut de l'agent sera remise � l'�tat initial, et un nouveau bureau et le bureau n'est pas une relation. En plus de l'�pisode de la t�che, la t�che ne se termine pas qu'il y ait un �tat, toujours continuer, qui est, T = .

En raison de l'incertitude quant � l'avenir, nous avons g�n�ralement un futur rabais de r�compense (remise). Ceci est bien compris, la r�compense imm�diate est d�cid�e � se faire � nouveau nos mains, trop d'incertitudes futures de r�compense, donc �tre r�duit. Par cons�quent, nous pouvons d�finir le retour (Discounted retour) apr�s remise comme suit:

O� est un param�tre, 0101, appel� le taux d'actualisation (Ratio Discount). Si

propri�t� de Markov

Dans l'apprentissage de renforcement o�, l'agent selon l'�tat de d�cider quel genre de comportement, et l'�tat est un signal de l'environnement (Signal). Agent peut �tre d�riv� du capteur de mesure (�tat mesures sensorielles), ou peut �tre un processus complexe de ces mesures brutes. Le signal du capteur peut �tre l'heure actuelle, il peut �tre inclus avant le signal. Id�al, nous nous attendons � �tre en mesure de compression de signal d'�tat compact toutes les informations dans le pass�, il est en mesure de conserver toutes les informations pertinentes que possible pour �liminer les informations non pertinentes. Cela n�cessite g�n�ralement l'�tat du signal comprend non seulement l'heure actuelle, peuvent �galement contenir certaines informations avant, bien s�r, ne sont g�n�ralement pas besoin de toutes les informations pass�es. Si un signal d'�tat contient toutes les informations pertinentes, puis appelez avec la propri�t� de Markov (Propri�t� de Markov). Tels que les �checs, la situation actuelle (y compris l'emplacement de toutes les pi�ces et qui vont le prochain mouvement) contient toutes les informations. Que ce soit la voiture, puis aller � pied ou superficielle rapide de la premi�re voiture, bref, ils ont atteint la m�me situation. Ainsi, la propri�t� de Markov g�n�ralement pas normalement associ�e � un particulier � chemin �. Soit la d�finition formelle des propri�t�s de Markov.

Nous partons du principe que Ali- environnement (dynamique) est un processus al�atoire comme suit:

C'est dans le pass�, lorsque toutes les informations historiques (S0, A0, R1, ..., St-1, A-1, Rt), agent en adoptant nouvel �tat apr�s la r�troaction de l'environnement � l'�tat St est l et rewward est r distribution de probabilit� conjointe. Si le syst�me r�pond � la propri�t� de Markov, puis tout le pass� des informations d'historique est comprim� � St nouveau, et donc rien � voir avec une histoire pass�e de St dans les conditions donn�es, de sorte que le syst�me d'alimentation pour r�pondre � la propri�t� de Markov du syst�me peut �tre simplifi� dans la formule suivante :

Si l'environnement a la propri�t� de Markov, puis dans les conditions �tant donn� l'�tat actuel et le comportement que nous pouvons utiliser l'�quation suivante pour pr�dire (probabilit�) un �tat et la r�compense. En utilisant cette formule constante it�ration, nous pouvons (avec pr�cision) pour calculer le rendement attendu sur l'�tat actuel.

Figure: jeu Atari Broke

Par exemple, la figure de jeu Atari Broke est d'utiliser ce qui suit baffle le dos de rebond de la balle et a frapp� le haut de la grille, chaque grille aura frapp� un signe plus (r�compense), si tous sont assomm�s la grille ou chicane il n'a pas re�u tomber la balle dans le bas de l'�cran, m�me si le jeu se termine. L'objectif du joueur est d'obtenir plus scoring.

Si nous analysons l'environnement du jeu, si l'on met l'image image actuelle que l'�tat actuel, que ce soit une Markov il? Il ne semble pas, car une seule image de l'information d'aujourd'hui, il peut y avoir deux �tats diff�rents de la m�me image, mais la balle est probable. Nous pouvons mettre l'image courante et l'image de trame pr�c�dente comme l'�tat actuel, en supposant un mouvement lin�aire uniforme de la bille (en l'absence de collision est telle), la vitesse peut �tre calcul�e en fonction de la deuxi�me position de la balle. Cela peut penser � peu pr�s, il a des propri�t�s de Markov.

Markov processus de d�cision (processus de d�cision de Markov)

Rencontrez propri�t� de Markov de l'apprentissage de renforcement est appel� processus de d�cision de Markov, si l'espace d'�tat et de l'espace d'action est limit�, il est donc appel� processus de d�cision de Markov finie. Un processus de d�cision de Markov est compl�tement d�termin� par l'�tat actuel de l'environnement, nous le r�p�tons encore une fois que cette formule importante:

Avec la formule ci-dessus, nous pouvons calculer toute information sur l'environnement (environnement qui est compl�tement d�termin�e par cette formule). Par exemple, nous pouvons calculer les caract�ristiques des attentes et le comportement d'un �tat d'une r�compense est la suivante:

La formule ci-dessus est directement d�riv�e de la d�finition que nous avons souhait� de celui-ci, ici d'une simple d�rivation de celui-ci, similaire � l'arri�re o� saut�e.

De m�me, nous pouvons obtenir les probabilit�s de transition d'�tat:

Et compte tenu des s actuelles, lorsqu'un courant d�sir� et condition suivante s R�compense:

Fonction Valeur (Fonction Valeur)

Beaucoup m�thode d'apprentissage de renforcement impliquera la recherche fonction de valeur d'�tat (ou la fonction de co�t de l'�tat-Action). Cette fonction calcule l'agent dans cet �tat (ou agent dans le comportement de l'�tat et de prendre un xingw) � la fin comment bon. Tels que jouer aux �checs quand nous penserons � la fin est bon ou mauvais, si nous sommes dans une situation (position), afin de prendre des mesures pour guider le d�veloppement de la situation ou d'une mauvaise situation pour �viter cette situation mieux. Ici, les � bons � signifie dans ce attentes de l'Etat de retour d'agent, bien s�r, les attentes sont �troitement li�es � la politique Agent (politique), et donc la valeur de la fonction se r�f�re � la valeur d'une fonction � une certaine strat�gie.

Rappelons que est une politique des sS de l'Etat, Action aA (s) � la de probabilit� (a | s) cartographie. Nous appr�cions la strat�gie lorsque l'�tat s, est l'agent dans l'�tat s, et en utilisant de la politique, il peut y avoir des attentes de rendement, d�finis comme v (s). Sa d�finition officielle est:

La valeur attendue d'une variable al�atoire au cours E au nom de l'agent politique d'utilisation d'adopter le comportement ici. Si un �tat de terminaison, on d�finit la fonction de valeur est �gale � z�ro. Nous avons appel� la fonction politique v fonction de la valeur d'�tat (Fonction valeur d'�tat).

De m�me, nous pouvons d�finir q (s, a), en prenant la valeur d'action a dans l'�tat s, ce qui est formellement d�fini comme suit:

Nous q appel� fonction de la valeur du comportement de la strat�gie (valeur d'action de la fonction).

fonction Valued v et q peuvent �tre estim�s de l'exp�rience (exp�rience) dans. Par exemple, nous pouvons �tre estim�es comme suit: Si l'agent utilise la simulation � plusieurs reprises d'une strat�gie, peut �tre estim�e en moyenne une valeur, si le nombre de simulations tend vers l'infini, cette m�thode pour obtenir une estimation de v ^ (s) converge vers le vrai v (s)). Ceci est la m�thode Monte Carlo (Monte Carlo), cette m�thode peut �galement �tre utilis�e pour estimer q (s, a) de. Si l'espace d'�tat est tr�s grand, on peut supposer v (s) ou q (s, a) est une v fonction param�tr�es (mod�le) (s; w), ou q (s, a, w), c'est la m�thode d'approximation . Nous pouvons utiliser la profondeur des r�seaux de neurones pour atteindre v (s; w) ou q (s, a, w), que l'on appelle la profondeur de l'apprentissage par renforcement (apprentissage en profondeur de renfort).

fonction Valued un effet tr�s important est qu'il satisfait une sorte de nature r�currente, ce qui dans l'apprentissage de renforcement et de la programmation dynamique sera fr�quemment utilis�. La formule de r�currence est Bellman (Bellman �quation), j'esp�re que les lecteurs puissent comprendre et d'en tirer l'�quation suivante (si certaines �tapes ne peuvent pas �tre d�duites, et au moins lu ce qu'il dit et �tre capable de � reconna�tre � l'�quation, lu cent fois son ce qui signifie de la voir, vraiment je ne comprends pas plus que deux fois la copie sera �galement de l'aide).

Regardons Bellman, il est d�fini de mani�re r�cursive --v (s) par v (s) d�fini, pour quelques questions simples, nous pouvons v r�solu le probl�me en r�solvant les �quations bas�es sur cette formule.

Nous combinons les graphiques pour analyser la formule ci-dessus. L'�tat actuel est s, selon le de la politique, nous prenons la probabilit� de comportement a est (a | s), et nous � l'�tat d'un et de r�troaction le comportement, l'environnement r et s de la probabilit� est p (r, s ' | s, a), possible (a, r, s') exige des compositions et, pour ainsi donner

, Dans chaque trajet (chaque s, r, s combinaison) Rt + 1 est R, peuvent �tre obtenus

. Dans le cas du trajet donn�, s, r, s pour, r, s 'sont fixes, de sorte que s' est fixe, alors que, selon la propri�t� de Markov, Gt + 1GT + 1 t + 1 avec seulement �tat temps St + 1 = s'St + 1 = s', et donc le second terme devient

La fonction de meilleure valeur (Fonctions optimale Valeur)

La r�solution des t�ches d'apprentissage de renforcement, grosso modo, il est de trouver une strat�gie pour faire la r�compense � long terme, autant que possible. Tout d'abord, nous d�finissons ce qui est une politique � bonne (ou bien), d�sign� par � qu'une autre strat�gie . d�finition formelle est 'sS, v (s) v � (s). Peut prouver (sauter ici) il y a un (peut-�tre multiple) optimale $ \ Pi_, qui sont � mieux � que toutes les autres politiques. Pour un fonctionnement optimal de la valeur strat�gique est appel�e la fonction de valeur optimale, not�e v_ (s) $:

Pour la m�me raison, il y a un comportement optimal du comportement de la fonction de co�t:

$ Q_ (s, a), et et v_ (s) $ a la relation suivante:

On peut interpr�ter cette formule: s et apr�s une d�termination, il entrera dans l'�tat St + 1 et donner la r�compense Rt + 1, qui est la probabilit� du processus est donc en face d'un E. souhait� Mais cela n'a rien � faire et l'agent, et le comportement li�s � l'agent dans le temps t + 1, si vous voulez obtenir le meilleur q (s, a), il doit �tre fond� sur la politique optimale * v calcul� � l'instant t + 1 ( St + 1), et est donc v * (St + 1).

Note: L'�quation ci-dessus est juste une variable al�atoire Rt + 1RT + 1, qui consiste environnement p (r, s'| s, a) est d�termin�e, et v * (s) et Q * (s, a) sont deux constantes ( s donn�, dans le cas de a).

OpenAI Gym Pr�sentation

OpenAI Gym est un outil utilis� pour d�velopper et renforcer les algorithmes d'apprentissage comparer. Agent y parvenir sans aucune contrainte, de sorte que vous pouvez utiliser tensorflow ou tout autre outil pour atteindre Agent. Il Environnement fournit une interface unifi�e, vous pouvez utiliser cette interface pour d�finir une t�che d'apprentissage de renforcement en b�ton, en outre, il fournit �galement de nombreuses t�ches courantes, telles que de nombreux jeux Atari.

Run Environnement

Tout d'abord, nous introduisons un jeu tr�s simple CartPole-v0, comme indiqu� ci-dessous.

Figure: Capture d'�cran CartPole-v0 ex�cution

Ce jeu a une voiture, une force peut �tre appliqu�e � -1 ou +1 (acc�l�ration) de la voiture, la voiture a un poteau, notre objectif est n�cessaire entre la position de la voiture -2,4 � 2,4, et un angle par rapport au p�le vertical entre -15 � et 15 �. Si une analyse du point de vue physique, il a quatre variables d'�tat, la vitesse angulaire de la position angulaire du v�hicule, la vitesse du v�hicule, la tige, barre. La force exerc�e nous changerons la vitesse de la voiture, et donc indirectement changer la position de la voiture. Nous pouvons utiliser quelques lignes de code � ex�cuter CartPole-v0 ce jeu:

Le code est tr�s simple, tout d'abord cr�er un environnement CartPole-v0 la cible env, une remise � z�ro (RESET) rendre l'environnement dans l'�tat initial. Ensuite, le cycle 1000 fois, chaque fois que le premier de l'�tat actuel du jeu � tirer (render), puis choisir au hasard un env.action_space.sample d'action, puis appeler la fonction r�elle env.step � ex�cution � d'action.

Observation (Observations)

MDP est observ�e dans l'�tat (Etat), Environnement la valeur de retour de l'�tape 4:

un objet d'observation qui repr�sente l'observation d'objets de diff�rents environnements sont diff�rents retour.

flotteur de r�compense repr�sente R�compense.

Fait type bool repr�sente la t�che est termin�e. Pour la t�che Episode classe sera la fin de l'Etat, dans l'�tat final appel� apr�s l'�tape n'a pas de sens, vous devez d'abord faire appel � reset

Quelques informations pour le d�bogage d'info

Nous pouvons utiliser le code suivant pour imprimer des informations sur les:

espaces

Les objets de l'environnement, il y a deux espaces (espace): espace d'�tat (�tat espace) et de l'espace comportemental (espace d'action), qui d�finit tous les �tats possibles et le comportement. Nous pouvons voir CartPole-v0 de l'espace:

Comme on peut le voir � la sortie, discr�te (2) indique que la t�che a s�lectionn� deux action (distribution repr�sente d�plac� vers la gauche et la droite), Box (4,) montre un �tat repr�sent� par un vecteur 4 dimensions, la signification physique de la voiture sont relativement origine position et la vitesse, l'angle de la tige et de la vitesse angulaire par rapport � la direction verticale. Nous pouvons v�rifier la plage de valeurs avec le code suivant:

Route de la soie

Apprenez � conna�tre la Chine

------ th�orie de l'apprentissage de renforcement simple et pratique (a)

annuaire

introduction

Les mod�les d'apprentissage plus de renforcement commun - processus de d�cision de Markov (MDP)

propri�t� de Markov

Markov processus de d�cision (processus de d�cision de Markov)

OpenAI Gym Pr�sentation

Run Environnement

Observation (Observations)