Dr. Yu Yang de l'Universit� de Nanjing : Fronti�res de l'apprentissage par renforcement (Partie 2)

Lei Feng.com [AI Technology Review] Press�: Cet article est �dit� et compil� sur la base du rapport "Frontiers of Reinforcement Learning" r�alis� par le Dr Yu Yang lors de l'AIDL Second AI Frontier Workshop de la Chinese Artificial Intelligence Society "Frontiers of Machine Apprentissage ". Leifeng.com n'a pas chang�. Sur la base de l'intention initiale, certaines suppressions ont �t� effectu�es, et cela a �t� corrig� et confirm� par le Dr Yu Yang, et je voudrais exprimer mes remerciements. Le texte int�gral est divis� en parties sup�rieure et inf�rieure, et cet article est la partie suivante.

Le dernier portail : "Dr. Yu Yang de l'Universit� de Nanjing : Frontiers of Reinforcement Learning (Part 1)"

Le Dr Yang Yu est professeur agr�g� et ses principaux domaines de recherche sont l'intelligence artificielle, l'apprentissage automatique et l'informatique �volutive. Il a obtenu son baccalaur�at et son doctorat du D�partement d'informatique et de technologie de l'Universit� de Nanjing en 2004 et 2011, respectivement.

En ao�t 2011, il rejoint le D�partement d'informatique et de technologie et l'Institut d'apprentissage automatique et d'exploration de donn�es (LAMDA) de l'Universit� de Nanjing pour s'engager dans l'enseignement et la recherche scientifique. Il a remport� le National Excellent Doctoral Dissertation Award en 2013 et le Outstanding Doctoral Dissertation Award de la China Computer Federation en 2011. Publi� plus de 40 articles, dont de nombreux articles dans des revues et conf�rences de classe mondiale telles que l'intelligence artificielle, IJCAI, AAAI, NIPS, KDD, etc. Les r�sultats de la recherche ont remport� les prix du meilleur article de IDEAL'16, GECCO'11, PAKDD' 08, et champion du concours d'exploration de donn�es PAKDD'06, etc.

Il est le jeune r�dacteur en chef adjoint de Frontiers of Computer Science, membre principal du comit� de programme d'IJCAI'15/17, IJCAI'16/17 Publicity Chair, ICDM'16 Publicity Chair et ACML'16 Workshop Chair. Les �tudiants form�s ont remport� le prix du million du concours de recommandation Tmall "Double Eleven", la bourse Google, etc.

Voici une liste des conf�rences de Yu Yang � titre de r�f�rence pour les lecteurs�:

1. Introduction
2. Processus d�cisionnel de Markov
3. Du processus d�cisionnel de Markov au renforcement de l'apprentissage
4. Approximation de la fonction valeur
5. Recherche de politique
6. Apprentissage par renforcement dans les jeux
7. R�sum� de l'apprentissage par renforcement
8. Recommandation de ressources d'apprentissage par renforcement

La partie pr�c�dente a pr�sent� le contenu des deux premi�res sous-sections, et voici le contenu de la partie suivante�:

3. Des processus d�cisionnels de Markov � l'apprentissage par renforcement

Dans les t�ches d'apprentissage par renforcement, la r�compense et le transfert sont inconnus et doivent �tre appris. Il existe deux solutions sp�cifiques :

L'une consiste � restaurer la fonction de r�compense et la fonction de transfert. Tout d'abord, restaurez le MDP, puis r�solvez la strat�gie sur le MDP. Ce type de m�thode est appel� une m�thode bas�e sur un mod�le, et le mod�le ici fait r�f�rence au MDP.

Il existe �galement une m�thode correspondante, la m�thode Model-Free, qui ne restaure pas les r�compenses et les transferts.

approche bas�e sur un mod�le

Dans ce type d'approche, l'agent maintient le mod�le (c'est-�-dire le MDP) puis r�sout la politique � partir du mod�le.

Commencez avec une strat�gie al�atoire, placez la strat�gie dans l'environnement � ex�cuter et r�cup�rez le MDP � partir des donn�es de s�quence en cours d'ex�cution. �tant donn� que les donn�es de s�quence peuvent fournir des informations de supervision sur les transitions environnementales et les r�compenses, le simple fait de faire une r�gression peut savoir o� un �tat se d�placera lorsqu'une action est effectu�e, et combien de r�compense il peut obtenir.

Voici un moyen tr�s simple d'explorer l'environnement - RMax, qui utilise un mod�le de r�gression tr�s simple appel� counts.

Bien que cela semble tr�s simple, la complexit� de l'�chantillon de restauration de MDP est le carr� du nombre d'�tats, ce qui est beaucoup plus �lev� que la complexit� de la strat�gie de solution mentionn�e ci-dessus. On peut en d�duire que la complexit� de l'apprentissage du MDP est extr�mement �lev�e, de sorte que de nombreux travaux de recherche se concentrent sur l'apprentissage sans mod�le.

apprentissage sans mod�le

L'apprentissage sans mod�le pr�sente bri�vement deux m�thodes. L'une s'appelle la m�thode de Monte-Carlo et l'autre la m�thode des diff�rences temporelles.

Introduction � la m�thode d'�chantillonnage de Monte-Carlo (m�thode de Monte-Carlo)

L'apprentissage sans mod�le est tr�s similaire � l'it�ration de strat�gie mentionn�e pr�c�demment. Tout d'abord, �valuez la strat�gie actuelle�; deuxi�mement, am�liorez la strat�gie actuelle.

�tape 1 �valuez votre strat�gie

Lors de l'�valuation d'une strat�gie dans MDP, puisque les r�compenses et les transferts sont connus, ces deux fonctions peuvent �tre utilis�es directement pour calculer la valeur d'�valuation. Maintenant, ces deux fonctions ne savent pas, alors que faire�?

Cette fonction de valeur Q est en fait une attente, il suffit donc de remplacer l'attente par un �chantillonnage. En d'autres termes, prenez la strat�gie et ex�cutez-la dans l'environnement pour voir quel est le r�sultat.

Par exemple, apr�s avoir couru, j'obtiens une piste�: d'abord le soleil se l�ve, puis il fait nuageux, et enfin le soleil se l�ve�; puis je cours une deuxi�me fois et j'obtiens une piste, puis une troisi�me fois et j'obtiens une autre piste. Enfin beaucoup de trajectoires. Je sais quelle est la r�compense pour chaque trajectoire, puis je fais la moyenne des r�compenses pour ces trajectoires en tant qu'estimation de la fonction de valeur de cette politique, en utilisant la fr�quence pour approximer l'attente.

�tape 2 Mettre � jour/am�liorer la strat�gie

De cette fa�on, nous pouvons �valuer la qualit� d'une strat�gie. Apr�s avoir �valu� une strat�gie, vous pouvez prendre la meilleure action indiqu�e par la fonction de valeur Q comme une nouvelle strat�gie comme avant, et le processus de mise � jour est le m�me.

L'ensemble de l'algorithme est relativement simple � �crire. Nous devons faire m �chantillonnage, chaque fois que nous prenons la strat�gie actuelle dans l'environnement pour l'ex�cuter, puis nous obtiendrons une s�quence, additionnerons les r�compenses en fonction de la s�quence, puis mettrons � jour la valeur Q, qui est la valeur moyenne de l'�chantillonnage dans l'histoire, et c est le compte.

Une fois qu'une trajectoire est en panne, apr�s la mise � jour de la valeur Q, effectuez la deuxi�me trajectoire, ce qui permet d'obtenir une m�thode d'apprentissage par renforcement qui ne repose pas sur le mod�le MDP.

Cependant, cette m�thode manque d'exploration environnementale et rend difficile la mise � jour de la strat�gie

Cependant, il y a un probl�me avec cela - si une strat�gie d�terministe est obtenue, il est possible que les trajectoires prises � partir de 100 �chantillons soient les m�mes, ce qui rend impossible d'�valuer les performances de la strat�gie dans tous les �tats, donc la strat�gie ne peut pas �tre am�lior�. La cl� ici est son manque d'exploration de l'environnement.

Comment explorer l'environnement pour une r�compense maximale�?

Comment explorer ? On peut consid�rer le probl�me d'apprentissage par renforcement le plus simple : un �tat, deux actions, une action a une r�compense plus �lev�e, une action a une r�compense plus faible, mais les deux r�compenses proviennent de deux distributions. Quelle action choisissez-vous � ce stade, ou comment pouvez-vous le faire pour en avoir le plus pour votre argent�? C'est en fait le mod�le bandit.

� l'extr�me, essayez 100 fois et faites chaque action 50 fois. � ce moment, je sais peut-�tre quelle action est la meilleure, mais la r�compense n'est peut-�tre pas la plus �lev�e, car apr�s 10 fois, je connais d�j� la premi�re action. Le retour est un peu plus �lev�, et si l'investissement restant est toujours uniform�ment r�parti, il n'obtiendra pas le rendement maximal.
� l'autre extr�me, essayez chacun des deux mouvements une fois pour voir lequel a le gain le plus �lev�, et les 98 fois restantes vont au gain le plus �lev�. Cette m�thode n'est pas non plus bonne, car elle n'est essay�e qu'une seule fois et le rendement estim� est tr�s instable.

Le premier cas est d'avoir suffisamment d'exploration (exploration), et le deuxi�me cas est d'avoir un meilleur investissement sans trop d'exploration (exploitation), il faut trouver un �quilibre entre ces deux points.

Il existe plusieurs fa�ons de r�soudre ce probl�me. Le moyen le plus simple est d'utiliser la probabilit� de 1-, d'investir dans celui qui est optimiste maintenant, et la probabilit� restante est compl�tement al�atoire, et d'essayer chaque action. Cette m�thode est appel�e -gourmande.

Cette m�thode peut garantir que tous les �tats ont une certaine probabilit�, m�me une faible probabilit�, d'�tre visit�s. Ainsi, apr�s avoir fonctionn� pendant un certain temps, il peut trouver la strat�gie optimale.

Mais cette m�thode pr�sente �galement l'inconv�nient qu'une valeur doit �tre sp�cifi�e. Habituellement, cette valeur doit �tre diminu�e jusqu'� ce qu'elle converge vers un meilleur r�sultat. Il y a aussi un probl�me d'efficacit�. Par exemple, apr�s 10 tentatives d'action A, le rendement moyen est de 10000, et apr�s 10 tentatives d'action B, il est de 0,1. A ce moment, il n'est plus n�cessaire d'essayer, car le la distance est tr�s longue. Mais l'exploration de -gourmande ne s'arr�te pas, il existe donc d'autres m�thodes, comme softmax - qui prend en compte la valeur Q elle-m�me, si les valeurs des deux actions sont tr�s diff�rentes, la probabilit� d'exploration est faible. Une autre m�thode plus belle en th�orie est UCB (Upper Confidence Bound) :

Tout d'abord, la valeur Q est consid�r�e. Si la diff�rence entre la valeur Q elle-m�me est relativement grande, la possibilit� d'exploration est tr�s faible ;
Deuxi�mement, le nombre d'explorations est consid�r�. Si le nombre d'explorations est petit, sa confiance peut �tre relativement faible, et si le nombre d'explorations est important, la confiance sera relativement �lev�e.

Choisissez donc l'action en fonction de la valeur Q plus la limite sup�rieure de la confiance, et elle s'�quilibrera automatiquement.

Cependant, la m�thode la plus couramment utilis�e est la premi�re m�thode -gourmande. Apr�s avoir donn� une strat�gie , transformez-la en strat�gie d'exploration, c'est-�-dire s�lectionnez une action au hasard, et mettez cette strat�gie avec exploration dans l'algorithme de Monte Carlo. De plus, cette trajectoire n'est pas g�n�r�e � partir de , mais � partir de avec exploration, ce qui assure une mise � jour continue de la politique.

Voici une introduction � la politique On/Off�: Apprentissage des politiques avec ou sans exploration.

Vous pouvez souvent entendre le terme politique de marche/arr�t.

Dans l'�chantillonnage de Monte Carlo, la strat�gie est utilis�e pour �chantillonner, et l'apprentissage n'est pas , mais avec exploration. Parce que les donn�es utilis�es pour l'�valuation sont g�n�r�es � partir de la strat�gie avec exploration, et non � partir de la strat�gie que nous voulons apprendre. Cette distinction peut conduire � l'exploration dans le cadre de la strat�gie. Cette politique d'�chantillonnage et de mise � jour est le m�me algorithme appel� On Policy.

Mais souvent, ce que nous voulons apprendre est en fait une politique sans exploration, c'est-�-dire que nous devons �chantillonner � partir de la politique avec exploration, mais seule la politique elle-m�me, � savoir Off Policy, est mise � jour. Le probl�me ici est que l'�chantillonnage ne provient pas de la strat�gie actuelle. La technique d'�chantillonnage d'importance couramment utilis�e modifie la distribution de l'�chantillonnage en celle souhait�e. La distribution de la strat�gie peut �tre modifi�e par la simple m�thode de pond�ration, puis cette distribution peut �tre ajout�e � l'algorithme sp�cifique. Autrement dit, en ajoutant un poids � la r�compense, un tel algorithme devient un algorithme Off Policy, de sorte qu'il apprend lui-m�me.

R�sum� des algorithmes de Monte Carlo

Dans l'ensemble, l'algorithme de Monte Carlo n'est pas un algorithme tr�s efficace, mais il peut pr�senter les caract�ristiques des algorithmes sans mod�le.

Nous devons �valuer cette strat�gie, puis trouver une direction d'am�lioration apr�s l'�valuation, et ensuite nous pouvons am�liorer l'algorithme�; ici, afin de mettre � jour efficacement la strat�gie, nous devons introduire l'exploration de l'environnement�; et dans l'exploration de l'environnement, nous devons noter les deux concepts de politique On/Off.

De plus, l'algorithme de Monte Carlo a un d�faut �vident : le mod�le ne doit �tre mis � jour qu'apr�s l'obtention de la trajectoire compl�te.

M�thode de diff�rence temporelle

Le mod�le peut-il �tre mis � jour � chaque �tape du processus�? Il existe une propri�t� dans l'algorithme de Monte Carlo, c'est-�-dire que lorsque la valeur Q est mise � jour, la moyenne est en fait mise � jour.

La moyenne mise � jour peut aussi s'�crire : t = t-1 + (xt _ t-1), ce qui signifie que ce que nous venons de mettre � jour est la valeur Q (la formule est montr�e dans la figure ci-dessous), o� R Q (st, at) est appel�e erreur de Monte Carlo. Nous savons que Q est une estimation de la r�compense, et R est la vraie r�compense apr�s avoir min� cette trajectoire. En d'autres termes, la mise � jour de la valeur Q d est la diff�rence entre la valeur r�elle et la valeur estim�e, c'est-�-dire l'erreur de Monte Carlo.

Dans l'algorithme TD, nous avons franchi une �tape et obtenu la vraie r�compense, et nous ne sommes pas all�s plus loin, donc nous ne savons pas quelle est la vraie r�compense, mais nous pouvons estimer la r�compense suivante � travers la valeur Q pr�c�dente. l'addition est l'information actuellement connue, et elle est utilis�e pour remplacer ce R pour soustraire l'ancienne valeur estim�e.Nous appelons ce processus la diff�rence temporelle.

Si vous utilisez Monte Carlo, vous devez d'abord aller � la fin. Apr�s avoir connu le r�sultat global, la diff�rence de chaque �tape peut �tre calcul�e�; pour TDL, vous n'avez besoin d'enregistrer que les informations d'une �tape, vous pouvez donc vous mettre � jour en ligne .

SRAS

La programmation dynamique enregistre des informations sur tous les �tats. En rempla�ant l'erreur de Monte Carlo par TD errpr, la m�thode d'apprentissage par renforcement de la nouvelle m�thode TD peut �tre obtenue. Cette m�thode ne collecte pas la trajectoire enti�re, mais utilise TDL pour mettre � jour la valeur Q en fonction de la strat�gie d'exploration, et met � jour le jugement de la strat�gie courante � chaque �tape, puis met � jour la strat�gie. Cet algorithme est appel� SARSA, qui appartient � la politique On, et devient la politique Off. Une seule modification est apport�e, et l'erreur TD est calcul�e par la strat�gie de non-exploration, et l'algorithme Q-Learning est obtenu.

SARSA vs Q-learning

Il s'agit d'un probl�me d'escalade de r�seau, un probl�me classique typique d'apprentissage par renforcement.

L'action consiste � marcher de haut en bas, de gauche � droite, et il y a une r�compense de -1 pour chaque pas. De l'�tat initial � l'�tat final, prenez le chemin le plus court pour maximiser la r�compense. Il y a une falaise sur l'image. Une fois que vous atteignez la falaise, la r�compense sera extr�mement faible et vous devrez revenir � cet �tat initial.

L'utilisation de On Policy SARSA ici aura une certaine probabilit� d'exploration, et elle peut tomber sous la falaise, donc la r�compense sera relativement faible�; lors de l'utilisation de Q Learning, parce que la strat�gie finale n'implique aucune exploration, il n'y a aucun hasard, donc le chemin est le plus court.

C'est la diff�rence entre les deux types d'algorithmes d'apprentissage par renforcement. Vous pouvez voir dans le processus d'apprentissage que la valeur de Q Learning est faible, car l'apprentissage exploratoire doit �tre effectu� lors de l'apprentissage, vous devez donc continuer � vous entra�ner pendant le processus de formation.

De plus, la mise � jour d'erreur TD mentionn�e ci-dessus est une mise � jour apr�s une �tape.En fait, une mise � jour en deux �tapes et une mise � jour en N �tapes peuvent �tre effectu�es. Il existe donc un moyen de faire beaucoup d'�tapes et de les combiner selon un poids de probabilit�.Apr�s la combinaison, vous obtenez un TD appel� -retour, qui est un TD d'une �tape, de deux �tapes et de plusieurs �tapes.

4. Approximation de la fonction valeur

Toutes les questions que nous venons de mentionner, la pr�misse est qu'elles peuvent �tre exprim�es dans des tableaux. Mais de nombreux environnements du monde r�el ne peuvent pas �tre repr�sent�s dans des tableaux. Par cons�quent, dans les premiers jours du d�veloppement de l'apprentissage par renforcement, il n'a pas pu �tre utilis� dans des probl�mes r�els � grande �chelle. Plus tard, tout le monde a pens�, comment mettre cet apprentissage par renforcement dans un espace d'�tat continu, m�me dans une situation o� les actions sont continues, comme le contr�le d'un h�licopt�re.

Vous pouvez penser qu'il y a une grande diff�rence entre le processus d'apprentissage de l'apprentissage par renforcement et l'apprentissage supervis�, et les algorithmes et les mod�les semblent �tre compl�tement diff�rents. Mais apr�s �tre entr� dans l'espace d'�tat continu, il y aura de nombreuses similitudes entre les deux.

Une table peut �tre utilis�e pour repr�senter une fonction de valeur ou une politique dans un �tat discret�; mais entrer dans un espace d'�tat continu n�cessite une approximation d'une fonction, appel�e approximation de la fonction de valeur.

Par exemple, nous pouvons utiliser une fonction lin�aire pour repr�senter, la valeur V est une valeur inf�rieure � l'�tat s, l'�tat s a d'abord un vecteur caract�ristique (s), cette valeur V est exprim�e sous la forme d'un param�tre lin�aire multipli� par la valeur interne du produit vedette. Il y a une action dans la valeur Q. En supposant que l'action est discr�te, une fa�on est de mettre l'action et l'�tat ensemble dans une caract�ristique, et l'autre fa�on est de cr�er un mod�le pour chaque action.

Lorsque vous rencontrez le probl�me de l'espace continu, il semble naturel d'utiliser l'approximation pour repr�senter les fonctions de valeur V et Q, mais apr�s approximation, on constatera que de nombreux r�sultats th�oriques dans le pass� ne tiennent pas.

Mais ignorons ces probl�mes pour l'instant, regardons comment apprendre apr�s avoir fait des approximations ? Ce que nous voulons savoir, c'est que la valeur Q ici doit se rapprocher le plus possible de la valeur Q r�elle apr�s que la valeur Q est approch�e. Si vous connaissez d�j� la vraie valeur de Q, comment l'approximer ? Le plus simple est de faire une r�gression par les moindres carr�s. Une des solutions est la d�rivation. Apr�s la d�rivation, la d�riv�e est exprim�e comme la diff�rence entre le Q r�el et le Q estim�, puis multipli�e par la d�riv�e du mod�le de valeur Q. On peut voir que la signification exprim�e par la d�riv�e est coh�rente avec l'erreur Carlo du mod�le pr�c�dent et l'erreur TD, mais le param�tre w est mis � jour. En mettant cette m�thode de mise � jour dans l'apprentissage Q, rien d'autre n'a chang�, seule la m�thode Q-Learning approxim�e par la fonction de valeur est obtenue.

Quelle fonction utilise ce mod�le ? Le plus simple est d'utiliser une fonction lin�aire. Cependant, les fonctions lin�aires ont de nombreuses limites et elles doivent travailler dur sur la conception des fonctionnalit�s, ce qui n�cessite une bonne conception manuelle.

Pour le transformer en une fonction non lin�aire, une m�thode courante consiste � utiliser un r�seau de neurones pour repr�senter directement la valeur Q avec un r�seau de neurones. C'est aussi tr�s simple lors de la mise � jour, il suffit de passer le gradient au r�seau de neurones, car l'algorithme BP du r�seau de neurones lui-m�me cherche aussi le gradient.

Am�liorez-vous avec l'apprentissage par lots

Il y a aussi des pistes pour s'am�liorer. Par exemple, lorsque nous formons un mod�le approximatif, la formation sur un �chantillon peut �tre instable, nous pouvons donc utiliser des mod�les par lots pour accumuler un lot de donn�es pour former le mod�le.

Toutes les m�thodes d'entra�nement que nous venons de mentionner consistent � estimer d'abord la valeur V ou la valeur Q, puis � en d�duire la strat�gie. Nous appelons cette approche une approche d'apprentissage par renforcement bas�e sur la fonction de valeur.

5. Recherche de politique

Probl�mes d'estimation de la fonction de valeur�: d�g�n�rescence des politiques

Cependant, il y a un probl�me avec l'estimation de la fonction de valeur - cette m�thode peut converger vers la strat�gie optimale, mais la pr�misse doit �tre sous la forme d'un tableau�; si une approximation de la fonction est utilis�e, la strat�gie d�g�n�rera, c'est-�-dire plus la valeur Q est estim�e, plus elle est grande, plus la strat�gie est mauvaise.

Pour donner un exemple simple, il y a maintenant deux �tats, l'un est l'�tat 1 et l'autre est l'�tat 2, la caract�ristique de l'�tat 1 est 2 et la caract�ristique de l'�tat 2 est 1. Nous fixons la r�compense de sorte que la valeur V optimale pour l'�tat 2 soit sup�rieure � celle de l'�tat 1. � ce stade, si une fonction lin�aire est utilis�e pour repr�senter le V, c'est-�-dire que la caract�ristique est multipli�e par W. Cette caract�ristique n'a qu'une seule dimension. La valeur V optimale 2 est sup�rieure � 1, la valeur propre de 1 est sup�rieure et la caract�ristique de 2 La valeur est plus petite, donc le W optimal doit �tre un nombre n�gatif, ce qui rendra V(2) plus grand que V(1), de sorte que la politique optimale peut �tre d�riv�e.

Cependant, la m�thode bas�e sur la fonction de valeur consiste � rendre la valeur V aussi proche que possible de la valeur V optimale, et la valeur V optimale est positive, ce qui conduira � ce W doit �tre positif, et la strat�gie optimale ne peut pas �tre obtenue . De cette mani�re, plus la fonction de valeur est estim�e avec pr�cision, plus la politique est mauvaise, ce que l'on appelle la d�gradation de la politique.

R�solution des probl�mes de d�g�n�rescence des politiques avec la recherche de politiques

Afin d'�viter la d�gradation de la politique, notre m�thode consiste � trouver la politique directement, c'est-�-dire la recherche de politique.

Tout d'abord, param�trez la politique. Pour les actions discr�tes, les param�tres peuvent �tre d�finis comme la politique de Gibbs, c'est-�-dire que chaque action a un param�tre, puis normalisez-le afin que chaque action ait une probabilit�. S'il s'agit d'une action continue, elle peut �tre d�crite par une distribution gaussienne. � l'int�rieur de ce param�tre, ce que j'ai �crit ici est un processus lin�aire, mais il peut aussi �tre remplac� par un r�seau de neurones.

La m�thode pour optimiser directement les param�tres de la strat�gie afin de maximiser le rendement total re�u est la recherche de politique.

Avantages de la recherche de politique

Quels sont les avantages et les inconv�nients de la recherche de politiques par rapport aux m�thodes bas�es sur la fonction de valeur�?

Premi�rement, il peut g�rer des �tats et des actions continus ;
Deuxi�mement, les performances globales sont meilleures pour les donn�es de grande dimension.
Troisi�mement, les strat�gies al�atoires peuvent �tre apprises directement
Quatri�mement, la compatibilit� entre Policy Search et l'apprentissage supervis� est relativement bonne.

Le troisi�me point est tr�s utile, par exemple, au jeu "roche papier ciseaux", si vous choisissez une strat�gie d�terministe, vous perdrez d�finitivement, vous devez faire une sortie probabiliste pour gagner.

Il existe un autre exemple pour vous expliquer pourquoi la strat�gie du hasard est n�cessaire.

Le squelette signifie que vous mourrez lorsque vous l'atteindrez�; la strat�gie optimale est certainement d'aller au milieu, mais il y a ici deux grilles grises, qui repr�sentent l'�tat d'observation incompl�te, c'est-�-dire qu'apr�s avoir march� jusqu'� la grille grise, vous ne sais pas s'il faut aller � gauche ou � droite. ;

Si la strat�gie d�terministe est � nouveau utilis�e � ce moment, elle ne peut qu'aller � gauche ou � droite, et elle ne peut qu'�tre d�termin�e, et il est possible de rencontrer un chemin qui ne peut pas �tre suivi.
Si vous utilisez une strat�gie al�atoire, la probabilit� d'aller � gauche et � droite est de 50 %, donc peu importe la direction que vous prenez, vous atteindrez toujours l'objectif.

Cela refl�te �galement les avantages de la recherche strat�gique.

Quatri�mement, la compatibilit� entre la recherche de politiques et l'apprentissage supervis� est relativement bonne.

Cette strat�gie est exprim�e en termes de param�tres et son objectif est de maximiser la r�compense. Maximiser la r�compense revient � �num�rer toutes les trajectoires dans l'espace. Parce que la strat�gie a une certaine probabilit� de g�n�rer ces trajectoires, dans un certain �tat, la probabilit� que la strat�gie fasse l'action correspondante est d�termin�e par la strat�gie, et la probabilit� de g�n�rer cette trajectoire est obtenue en multipliant les probabilit�s de toutes les actions sur tous trajectoires probabilit�. Par cons�quent, son rendement global attendu est l'esp�rance de toutes les trajectoires, c'est-�-dire la probabilit� de chaque trajectoire multipli�e par la r�compense pouvant �tre obtenue par chaque probabilit�, ce qui est �galement une autre fa�on d'�crire le rendement total. L'avantage de cette fa�on d'�crire est qu'elle est li�e � l'objectif du param�tre de politique, donc je peux directement d�river la r�compense pour r�soudre la politique. Une autre fa�on d'�crire est la distribution stationnaire, qui est compl�tement �quivalente � l'�criture ci-dessus, signifiant exactement la m�me chose, donc je vais la sauter ici.

La recherche de politique a �galement un inconv�nient, dont l'un est qu'il existe de nombreuses solutions optimales locales, ce qui perd la garantie de convergence de l'optimalit� globale, et le second est que la variance du processus d'apprentissage est tr�s �lev�e.

M�thode de d�rivation de strat�gie pr�coce�: diff�rence finie

Je crois que tout le monde pourra prendre la d�rivation, mais il y a un moyen que vous n'avez peut-�tre pas vu - la diff�rence finie, qui est la m�thode utilis�e pour la d�rivation de strat�gie au d�but.

Quand utilise-t-on la diff�rence finie ? Il se peut que le syst�me soit trop compliqu� pour �tre d�riv� facilement, de sorte que cette d�riv�e peut �tre approxim�e de mani�re simple. Obtenez un param�tre , la d�riv�e de est de voir dans quelle direction est la plus rapide, ajoutez donc une petite valeur de perturbation � , �chantillonnez la zone locale autour de , et l'�chantillonnage cro�t le plus rapidement, cette direction comme direction d�riv�e. C'est la m�thode la plus simple.Bien s�r, cette m�thode a de nombreux d�fauts, surtout dans le cas de grandes dimensions, elle n�cessitera beaucoup d'�chantillonnage, donc la m�thode la plus directe est de d�river directement.

Enfin, une d�riv�e est obtenue, et la forme d�riv�e est la suivante :

E est l'attente, 1 � T repr�sentent que la trajectoire de T �tapes est consid�r�e, et la trajectoire de chaque �tape prend la d�riv�e du logarithme de la valeur de sortie de la politique, puis multipli�e par la r�compense r�elle (la r�compense n'est pas logarithmique) . La r�compense est une constante, c'est-�-dire la valeur de r�compense obtenue par la trajectoire.

L'esp�rance peut �tre approxim�e par �chantillonnage. Apr�s une politique, ex�cutez quelques trajectoires, puis calculez le gradient moyen comme une approximation de l'esp�rance du gradient.

Comme nous venons de le mentionner, cette m�thode a un gros d�faut, c'est-�-dire que sa variance est tr�s grande.Pour mettre � jour la politique directement avec le gradient calcul� (vallina policy gradient), en gros, vous ne pouvez pas obtenir une bonne politique car sa variance est trop �lev�e. et instable.

M�thodes de contr�le de la variance 1. Acteur-Critique

Il existe plusieurs fa�ons de contr�ler la variance, dont l'une s'appelle Acteur-Critique. La strat�gie est obtenue par d�rivation directe, qui est appel�e Acteur�; la fonction de valeur est estim�e et utilis�e pour �valuer la strat�gie, qui est Critique, ce qui signifie qu'elle est un �valuateur.

Nous voulons maintenir un mod�le de la fonction de valeur Q. De plus, lorsque vous utilisez la m�thode d�riv�e pour trouver le gradient de la politique, au lieu d'utiliser directement la r�compense, utilisez la valeur Q fournie par Criitic. Donc Actor-Critic maintiendra deux mod�les, le premier est le mod�le de la politique, et le second est le mod�le de la fonction Q.

Lors de l'approximation de la fonction Q, la formule est la m�me que la forme d�riv�e ci-dessus, et la r�compense d'exp�rience qu'elle contient est remplac�e par la valeur Q. Lors du calcul du gradient politique, la valeur Q est une constante et n'est pas mise � jour. Elle a sa propre m�thode de mise � jour et correspond g�n�ralement � la valeur Q r�elle.

M�thode de contr�le de la variance 2. Introduction d'un terme de biais

Une autre forme de contr�le de la variance consiste � introduire un terme de biais. Tant que la fonction est une fonction qui n'est li�e qu'� l'�tat et n'a rien � voir avec l'action, son int�grale est 0, ce qui n'affecte pas la direction de la gradient, mais affecte la variance du gradient.

Pour la forme simple, nous pouvons directement trouver quel est l'�cart optimal. Dans une forme plus g�n�rale, nous pouvons utiliser la valeur V au lieu du biais. �tant donn� que la valeur V est une valeur estim�e de l'�tat et n'a rien � voir avec l'action, elle sera de 0 lorsqu'elle sera int�gr�e � l'int�grale.

Lorsque la valeur V est introduite, ce dernier Q devient Q-V, qui est appel� fonction d'avantage, ce qui signifie�: dans cet �tat, la valeur V �quivaut � une valeur moyenne, et la valeur Q fait r�f�rence � la mesure dans laquelle une action est sup�rieure � la valeur moyenne. L'utilisation de la fonction Advantage am�liorera le contr�le de la variance une fois le gradient de politique effectu�.Ce n'est que lorsque la variance est bien contr�l�e que ce type d'algorithme peut vraiment fonctionner.

Autres m�thodes d'am�lioration

La m�thode d'am�lioration du gradient est �galement Nature Policy Gradient. En apprentissage supervis�, les gradients stochastiques sont facilement parall�lis�s. Il y a eu des travaux th�oriques r�cents qui explorent �galement que son parall�lisme n'affecte pas ses propri�t�s th�oriques. Dans le gradient politique, on peut aussi faire ce gradient en parall�le, ce qui peut le rendre tr�s rapide.

Il existe �galement des m�thodes de d�rivation directe des politiques, telles que l'optimisation sans d�rivation. Ce type de m�thode n'a pas d'importance ce que fait l'apprentissage par renforcement, mais optimise directement les param�tres de la politique. Apr�s avoir optimis� les param�tres, essayez la strat�gie pour savoir quelle est cette valeur.

De cette mani�re, l'algorithme optimis� peut ajuster les param�tres du mod�le en fonction de la valeur globale de la r�compense. D'une mani�re g�n�rale, il est moins efficace que d'utiliser Gradient Policy.Comme le processus interm�diaire est n�gligeable, il a un meilleur effet sur des probl�mes particuli�rement complexes, tels que les jeux Tetris.

6. Apprentissage par renforcement dans les jeux

La derni�re partie, parler de l'apprentissage par renforcement et des jeux.

Pourquoi parler de jeux ? D'une part, c'est parce que certains probl�mes qui doivent �tre surmont�s dans les jeux sont souvent rencontr�s dans des applications r�elles�; d'autre part, le co�t d'utilisation des jeux pour effectuer des t�ches d'apprentissage par renforcement est relativement faible.

Le jeu stimule l'apprentissage par renforcement profond

En 2015, DeepMind a utilis� des r�seaux profonds pour entra�ner l'apprentissage par renforcement directement � partir d'images d'�cran sur les jeux Atari, favorisant directement le d�veloppement de �l'apprentissage par renforcement profond�.

Utilisez un r�seau neuronal profond, placez-le dans le gradient de politique, en tant que mod�le de la politique�; ou placez-le dans la m�thode bas�e sur la fonction de valeur, en tant qu'estimation de la valeur Q de la fonction de valeur. Une telle approche est appel�e apprentissage par renforcement profond.

apprentissage par renforcement profond

En fait, beaucoup de travail dans l'apprentissage par renforcement profond consiste � �tudier comment rendre le r�seau plus stable. Surtout lorsque les donn�es d'entr�e sont relativement petites, la fluctuation de la variance du r�seau sera relativement importante. Cela peut �tre r�solu avec des "mises � jour paresseuses" - avec des r�seaux de neurones profonds, la mise � jour du mod�le � chaque �tape du processus peut faire beaucoup trembler le mod�le. Et avec "mise � jour retard�e", par exemple, vous ne pouvez pas mettre � jour la strat�gie en 100 �tapes, il suffit de mettre � jour le r�seau de neurones, ce r�seau de neurones n'est pas mis dans la nouvelle strat�gie, puis de le mettre � jour apr�s que le r�seau de neurones ait une mont�e relativement stable Strat�gie . De plus, ne jetez pas les donn�es accumul�es, mais retirez-les �galement pour rendre le r�seau de neurones plus stable. Ces deux comp�tences sont r�unies dans Q-Learning, qui est DQN.

R�seau Q profond (DQN)

DQN est sans doute le premier et probablement le plus connu � revendiquer un algorithme d'apprentissage par renforcement profond. Fondamentalement, sa structure globale est une approximation de fonction Q Learning, mais CNN est utilis� pour cr�er une fonction approximative.

Au moment de jouer au jeu, il avait d�j� un million d'historique enregistr�. Chaque fois qu'un r�seau de neurones est form�, 32 d'entre eux doivent �tre form�s une fois, et la strat�gie n'est pas mise � jour apr�s la formation, mais apr�s un certain nombre d'�tapes, la strat�gie est mise � jour. De plus, au lieu de prendre une trame d'image directement depuis l'�cran, il s'agit de mettre ensemble plusieurs trames de l'�cran dans l'historique pour obtenir une vue d'ensemble de la trame courante et des trames pr�c�dentes selon l'entr�e de CNN. Cependant, dans les derniers travaux, ce processus a �t� remplac� par un r�seau de neurones r�current : au lieu d'assembler plusieurs couches, plusieurs trames sont entr�es dans un r�seau tel que LSTM.

De nombreux jeux qui utilisent l'apprentissage par renforcement pour trouver des strat�gies ont �t� mieux jou�s que les humains, et l'avantage de bien jouer se refl�te principalement dans la vitesse de r�action. Mais dans les jeux qui n�cessitent une r�flexion approfondie sur les relations logiques, personne ne fait bien l'apprentissage par renforcement.

Jetons un coup d'il aux r�sultats de son rapport de match.

Ici, "avec relecture" et "sans relecture" signifient si les donn�es historiques sont utilis�es, et "avec cible Q" et "sans cible Q" utilisent CNN ou un r�seau lin�aire. Nous pouvons voir que le r�seau de neurones ne contribue pas le plus ici. Si nous n'utilisons que le r�seau de neurones sans relecture, l'effet n'est pas aussi bon que l'utilisation de la relecture, mais uniquement le mod�le lin�aire sans CNN. Bien s�r, il est pr�f�rable d'utiliser simultan�ment des mod�les approfondis et l'apprentissage par renforcement, ce qui peut accomplir certaines choses qui ne pouvaient pas �tre faites dans le pass�.

Application dans AlphaGo

Le cadre de base du syst�me AlphaGo est la recherche arborescente de Monte Carlo, qui est une m�thode de recherche arborescente classique. Cependant, la recherche arborescente de Monte Carlo ne peut � elle seule donner de tr�s bons r�sultats, et seule la recherche arborescente ne peut atteindre que cinq ou six sections amateurs. Un point innovant dans AlphaGo est l'introduction de l'apprentissage par renforcement pour am�liorer la profondeur et la largeur de l'arbre de recherche.

Trois r�seaux de neurones sont utilis�s ici.

Le premier r�seau de politiques, qui fonctionne lors de l'expansion de l'arbre de Monte Carlo pour rechercher des nuds. Ce r�seau est entra�n� � l'aide de la m�thode du gradient de politique.
Le second est un tr�s petit r�seau de neurones qui est utilis� pour effectuer des recherches approfondies plus bas dans la recherche arborescente de Monte Carlo, de sorte qu'il puisse �tre calcul� tr�s rapidement. Ce petit r�seau est appris par apprentissage supervis�.
Le troisi�me r�seau est utilis� pour corriger la valeur. Il est appris � travers des donn�es g�n�r�es au milieu de l'apprentissage par renforcement.

�tant donn� que tout le monde conna�t DQN, lorsque vous essayez un apprentissage en profondeur, la plupart des algorithmes qui vous viennent � l'esprit sont DQN. Mais comme il s'agit d'une m�thode d'apprentissage par renforcement bas�e sur l'estimation de la fonction de valeur, cette m�thode peut ne pas fonctionner dans un environnement d'application l�g�rement plus complexe, et tout le monde aura le sentiment que l'effet de l'apprentissage par renforcement avec DQN n'est pas si bon. Mais c'est aussi le jeu de Go cr�� par DeepMin. Sa m�thode d'apprentissage par renforcement a �t� chang�e en Policy Gradient, et de nombreux futurs algorithmes sont �galement bas�s sur Policy Gradient. Cette m�thode est meilleure pour traiter des probl�mes complexes.

Application sur d'autres jeux

C'est pr�cis�ment parce que le co�t de la simulation de jeux sur ordinateur est tr�s faible que les chercheurs continuent d'utiliser les jeux pour d�velopper l'apprentissage par renforcement. Par exemple, utile dans les jeux de tir � la premi�re personne en 3D, o� vous pouvez vous promener dans le monde et chercher des choses. L'ann�e derni�re, il y avait un concours de jeux "DOOM", dans lequel les concurrents utilisaient des personnages contr�l�s par ordinateur pour filmer en 3D du premier point de vue. Avec l'apprentissage par renforcement, le concurrent peut contr�ler le personnage du jeu et lui faire effectuer certaines actions. En raison de l'environnement complexe de ce jeu, certaines m�thodes innovantes ont �galement �t� d�velopp�es dans le processus de jeu.

Par exemple, dans un jeu, si vous laissez un apprentissage par renforcement apprendre directement dans l'environnement du jeu, il devra ramasser des bo�tes m�dicales, des armes, etc., ce qui est trop compliqu�. Et l'une des �quipes a adopt� cette approche�: ils ont laiss� l'apprentissage par renforcement passer du simple au complexe, et apprendre �tape par �tape - apprenez d'abord une strat�gie, comme ramasser une bo�te m�dicale, puis apprenez � apprendre en fonction de cette strat�gie pour tirer , comment tirer sur l'ennemi, etc.

En fait, il existe de nombreux d�fis tr�s difficiles dans le jeu, dont l'un est un jeu tr�s compliqu� appel� StarCraft. Ce jeu a une histoire de plusieurs ann�es, et maintenant de nombreuses personnes, y compris DeepMind, esp�rent montrer une bonne performance dans un jeu aussi complexe, car la complexit� de ce jeu est si grande qu'il peut �tre utilis� dans de nombreuses applications r�elles. est comparable, m�me si les gens apprennent ce jeu, il faudra beaucoup de temps pour apprendre. Dans le pass�, l'apprentissage par renforcement �tait utilis�, et un seul des petits probl�mes �tait pris � r�soudre. Par exemple, l'adversaire et moi envoyons chacun trois pions, essayant de trouver un moyen de voir comment ces six pions se battent. C'est une bataille tr�s locale, mais c'est plut�t bien d'apprendre quelque chose comme �a. Si vous voulez apprendre � jouer � l'ensemble du jeu, cela implique beaucoup de probl�mes. Premi�rement, son �chelle est beaucoup plus grande que celle du Go. Deuxi�mement, il y a beaucoup d'informations sur les adversaires qui ne peuvent pas �tre observ�es, comme les actions. de l'ennemi. Bien qu'au d�but de cette ann�e, les machines aient battu les joueurs humains dans le jeu Texas Hold'em, le Texas Hold'em est en fait un jeu de cartes tr�s simple. Nous voulons que l'apprentissage par renforcement soit utilis� dans les t�ches de jeu � grande �chelle sans observer les informations de l'adversaire. Sous le commandement, plus de 200 unit�s sont charg�es de faire des exercices continus, et elles doivent marcher des centaines de milliers de pas pendant plus d'une demi-heure, ce qui n'est toujours pas bien fait.

7. R�sum� de l'apprentissage par renforcement

L'introduction pr�c�dente n'est qu'une petite partie de l'apprentissage par renforcement. L'apprentissage par renforcement comprend �galement beaucoup de choses�:

Par exemple, s'il y a une situation non observable dans MDP, elle n'appartient pas � Markov, et il existe une direction sp�ciale telle que POMDP pour r�soudre ce probl�me.

Il y a aussi Learning from Demonstrations, ce qui signifie que les gens font d'abord des d�monstrations, puis enseignent � l'agent � partir des donn�es de d�monstration. Par exemple, AlphaGo, lors de la formation, n'est pas all� directement � l'apprentissage par renforcement, mais a d'abord collect� beaucoup de donn�es sur le combat humain.

Il existe de nombreuses fa�ons de concevoir la fonction de r�compense.

Vous trouverez ci-dessous un r�sum� des deux probl�mes qui nous pr�occupent le plus.

Premi�re question�: l'apprentissage par renforcement a-t-il m�ri�? Comment choisir un algorithme dans un probl�me d'apprentissage par renforcement ?

Si vous rencontrez un probl�me d'apprentissage par renforcement relativement simple, vous pouvez utiliser une m�thode bas�e sur la fonction de valeur, telle que DQN, pour des probl�mes plus complexes, vous pouvez utiliser la m�thode Policy Gradient pour effectuer le gradient de politique.

Cependant, � en juger par l'�tat de d�veloppement actuel, la maturit� de l'apprentissage par renforcement est loin d'�tre suffisante, c'est-�-dire que dans le domaine de l'apprentissage par renforcement, il y a encore beaucoup de place � l'am�lioration, et il est possible de faire un nouvel algorithme avec de meilleures performances. Mais les probl�mes � grande �chelle sont encore difficiles � r�soudre. Cette grande �chelle signifie qu'il a un grand espace d'�tat et un nombre d'�tapes particuli�rement important.

La deuxi�me question�: Quels goulots d'�tranglement seront rencontr�s dans l'application de l'apprentissage par renforcement dans les domaines pratiques�?

1. L'apprentissage par renforcement n�cessite une exploration, ce qui comporte des risques dans de nombreux sc�narios.

Prenons l'exemple des actions recommand�es. J'avais d�j� une strat�gie de parrainage qui me convenait et me rapportait un million par jour. Mais maintenant, pour former l'apprentissage par renforcement, pour explorer, essayez des actions al�atoires. Si je vous dis que cette exploration va vous faire perdre plusieurs millions aujourd'hui, et qu'un mois plus tard vous pouvez gagner 100 millions, alors il faut mesurer le risque de regarder la surface, et oser l'utiliser.

2. Pourquoi l'apprentissage par renforcement est-il davantage utilis� dans de nombreux jeux�?

Les jeux fonctionnent sur des ordinateurs � haute vitesse et � faible co�t. S'il est ex�cut� dans le monde r�el, comme s'il s'ex�cute sur la ligne du syst�me de recommandation, il doit alors g�rer l'environnement r�el. Son processus d'apprentissage n�cessite une exploration continue, et il peut rencontrer de nombreux probl�mes lorsqu'il est d�ploy� dans un environnement r�el. S'il existe un meilleur simulateur, ces probl�mes peuvent �tre r�duits. De plus, s'il existe de meilleures donn�es d'apprentissage supervis�, il sera �galement une strat�gie initiale peut �tre fait, mais cette strat�gie peut partir d'un point de d�part l�g�rement plus �lev�. Les robots ont g�n�ralement un simulateur de robot, donc ils le font g�n�ralement d'abord dans le simulateur, puis mettent la strat�gie sur le robot pour apprendre. Mais d'autres probl�mes du monde r�el peuvent ne pas �tre aussi bons dans le simulateur.

8. Livres recommand�s pour les ressources d'apprentissage par renforcement

Il n'y a pas beaucoup de livres sur l'apprentissage par renforcement. Le livre le plus classique est le manuel de Richard S. Sutton�; le livre de Masashi Sugiyama est une monographie�; Reinforcement Learning: State-of-the-Art est une anthologie avec une large couverture, mais n�cessite que les lecteurs aient une certaine base�; il existe �galement des livres sur le MDP�; en outre, l'apprentissage par renforcement est mentionn� dans les livres d'apprentissage automatique.

Ressources en ligne

OpenAI Gym : Une plateforme d'apprentissage par renforcement de base avec de nombreux environnements sur lesquels les chercheurs peuvent faire des exp�riences, ce qui favorise grandement ce domaine. Il y a aussi une vid�o d'enseignement en ligne de David Silver, le directeur technique d'AlphaGo, qui est tr�s bien.

L'endroit o� le journal a �t� publi�

Les articles sur l'apprentissage par renforcement sont principalement publi�s dans des revues et des conf�rences sur l'IA. Les revues incluent l'intelligence artificielle, JAIR, JMLR, Machine Learning, JAAMAS, etc., et les conf�rences incluent IJCAI, AAAI, NIPS, ICML, ICLR, AAMAS, IROS, etc.

Ce qui pr�c�de est le discours du Dr Yu Yang. Pour plus de contenu, veuillez continuer � pr�ter attention � Lei Feng.com.

Route de la soie

Apprenez � conna�tre la Chine