OpenAI a propos� une nouvelle m�thode de m�ta-apprentissage pour r�gler la fonction de perte pour la formation rapide sur la nouvelle mission

OpenAI a publi� une m�thode m�ta-apprentissage exp�rimental Evolved politique D�grad�s (EPG), dont la fonction perdue de l'apprentissage agent a �volu� pour la formation rapide sur la nouvelle mission. Lors d'un essai en utilisant l'EPG un agent form� peut r�ussir dans les domaines de la formation au-del� des t�ches de base, telles que l'apprentissage de la position de l'objet lorsque l'objet de la position d'une formation de navigation � l'�preuve (l'autre c�t� de la pi�ce).

la formation des agents EPG, d'avoir une connaissance pr�alable de la fa�on de progresser dans la nouvelle t�che. EPG n'est pas appris par la connaissance pr�alable de la strat�gie de codage de r�seau, mais encode pour apprendre de la perte de la fonction. Apr�s cela, l'agent sera en mesure d'utiliser la fonction de perte (convolution est d�finie comme le moment du r�seau de neurones) apprendre rapidement de nouvelles t�ches. OpenAI montre EPG peut �tre g�n�ralis� � d�passer la r�partition des t�ches de test (hors distribution), et ses performances avec d'autres algorithme de m�ta-apprentissage populaire qualitativement diff�rent. Dans les tests, les chercheurs ont constat� que la formation plus rapide que l'agent EPG PPO (une m�thode de gradient hors politique). Pour renforcer l'�tude d'apprentissage agent (programmation g�n�tique pour la recherche de la fonction de r�compense, etc.) con�us pour fonctionner en forme de r�compense li�e � l'EPG pr�c�dent, EPG, mais cette id�e g�n�ralis�e � l'�volution d'une perte compl�te de la fonction, ce qui signifie que la perte de la fonction doit apprendre interne efficace ferraillage algorithme d'apprentissage.

La premi�re vid�o montre comment un robot de fa�on OpenAI � l'�glise pour atteindre l'objectif diff�rent sans r�initialiser l'environnement, et la deuxi�me vid�o est une m�thode PPO. en haut � gauche num�rique indique le nombre actuel de mise � jour d'apprentissage. Notez que la vid�o montre le processus d'apprentissage en temps r�el complet.

EPG derri�re la conception de notre conscience sont tous familiers avec l'id�e: essayer d'apprendre de nouvelles comp�tences, l'exp�rience en alternance le processus de frustration et de joie. Supposons que vous venez de commencer � apprendre � jouer du violon, m�me s'il n'y a personne pour guider, vous pouvez vous sentir imm�diatement ce qu'il faut essayer. �couter leur propre voix jouent, vous pouvez sentir s'il y a des progr�s, parce que vous avez la fonction de r�compense interne son, qui vient de l'exp�rience transcendantale d'autres t�ches motrices et �volution dans le processus de l'�volution biologique. Au lieu de cela, la plupart des agents de renforcement apprentissage connaissances pr�alables n'est pas utilis� en contact avec une nouvelle t�che, mais totalement d�pendante de r�compenses externes signal initial � un comportement de guidage. Commencez par un �tat vierge, pas �tonnant que l'agent d'apprentissage de renforcement en cours dans l'apprentissage des comp�tences simples que les humains d'�tre encore proche. EPG par l'exp�rience pass�e dans des t�ches similaires, la Cor�e du Nord � est pas un �tat de vide, de savoir comment faire pour compl�ter les nouvelles t�ches � agent d'une �tape.

EPG comprend deux boucles d'optimisation. A l'int�rieur de la boucle, l'agent apprend � partir de z�ro pour r�soudre des t�ches sp�cifiques d'�chantillonnage d'une classe de t�ches. Ces t�ches pourraient �tre � pince mobile � un emplacement ". Le recyclage interne de descente de gradient stochastique (SGD) pour optimiser la strat�gie d'agent contre la perte de fonction � l'ext�rieur de la boucle. Les cycles d'apprentissage boucle interne r�sultant revenir �valuation externe, et l'utilisation de la strat�gie d'�volution (ES) d'ajustement de param�tre de fonction de perte � apporter � apporter des rendements plus �lev�s du fait de la nouvelle fonction de perte.

Ont appris de la fonction de perte pr�sente plusieurs avantages par rapport aux m�thodes actuelles d'apprentissage de renforcement: en utilisant la strat�gie �volutive � l'�volution de la fonction de perte nous permet d'optimiser le but r�el (la performance de la strat�gie de formation finale) plut�t que le rendement � court terme des r�sultats, EPG adapter en ajustant la fonction de perte l'environnement et l'agent de l'histoire, ce qui est sup�rieur � l'algorithme d'apprentissage de renforcement standard.

La figure montre OpenAI fa�on d'enseigner un saut de robot en arri�re, le tableau suivant est une m�thode PPO. EPG permet d'explorer le comportement de l'agent, l'agent dans le courant inverse de la marche sera bring've essay� de marcher avant de r�compense inverse �lev�. en haut � gauche num�rique indique le nombre actuel de mise � jour d'apprentissage. Notez que la vid�o montre le processus d'apprentissage en temps r�el complet.

R�cemment il y a eu beaucoup de recherches sur la strat�gie m�ta-apprentissage, nous devons apprendre � se demander pourquoi la perte de la fonction, plut�t que la strat�gie d'apprentissage directe? strat�gie de cycle d'apprentissage peut rendre la t�che en cours est apparu en forme, et des strat�gies d'apprentissage limitera l'expression d'initialisation lors de l'exploration. la motivation OpenAI est une fonction de la perte attendue peut �tre une bonne g�n�ralisation � un grand nombre de t�ches diff�rentes. Cela vaut �videmment pour r�gler manuellement la fonction de perte: la conception d'une perte compl�te de l'apprentissage de renforcement de la fonction (tels que la perte de la fonction PPO) peut �tre largement utilis� dans un certain nombre de t�ches (du jeu Atari pour contr�ler le robot).

Pour tester l'EPG de capacit� de g�n�ralisation, les chercheurs ont mis en place une exp�rience simple, la perte de EPG d'�volution jusqu'� ce que l'agent � fourmi � d�placer efficacement � une position al�atoire de la cible circulaire sur le c�t� droit du stade. Ensuite, la fonction de perte fixe, fourmi � une nouvelle cible, qui est la gauche du temps. �tonnamment, les fourmis ont appris � aller � gauche! Ci-dessous l'affichage de la courbe d'apprentissage (ligne rouge):

Le r�sultat est tr�s bon, car il montre la g�n�ralisation des r�sultats dans la t�che de � formation au-del� de la distribution � dans. Cette g�n�ralisation est difficile � r�aliser. OpenAI chercheurs EPG avec un autre algorithme de m�ta-apprentissage RL2 ont �t� compar�s, ce dernier essai de strat�gies d'apprentissage direct peuvent �tre utilis�s pour de nouvelles t�ches. Les exp�riences montrent que, RL2 peut en effet r�ussi � obtenir l'agent de cibler le c�t� droit de l'�cran. Cependant, lorsque la cible si le test est sur le c�t� gauche de l'�cran, l'agent �choue, ou aller directement � droite. En d'autres termes, il produit sur une mission de formation mis en place (et allez � droite) � surajustement. �

La vid�o ci-dessus (voir le texte) pr�sente une m�thode de OpenAI (� gauche) comment le robot de marche de l'�glise � partir de z�ro et atteindre la cible (cercle vert), le droit est RL2. en haut � gauche num�rique indique le nombre actuel de mise � jour d'apprentissage. Notez que la vid�o montre le processus d'apprentissage complet � 3 fois la vitesse en temps r�el.

Et, comme toutes les m�thodes de m�ta-apprentissage, o� il y a encore beaucoup de restrictions. Maintenant, nous pouvons former un accord unique avec la perte de la fonction d'une classe de t�che EPG, par exemple, laisser une fourmi marchant autour. Cependant, la fonction de perte EPG peut ne pas �tre efficace pour ces t�ches � d'autres diff�rents types de t�ches, telles que la lecture de jeu � Space Invaders �. En revanche, les pertes standard RL ont cette g�n�ralisation, la m�me perte de fonction peut �tre utilis�e pour apprendre beaucoup de comp�tences diff�rentes. EPG obtenir de meilleures performances, mais la g�n�ralisation perdue. En m�me temps, afin d'obtenir la capacit� de performance et de la g�n�ralisation, la m�thode de m�ta-apprentissage a encore un long chemin � parcourir.

Ne doit pas �tre reproduit sans autorisation: Num�ro de r�seau Chi �OpenAI a propos� une nouvelle m�thode de m�ta-apprentissage pour r�gler la fonction de perte pour la formation rapide sur la nouvelle mission

Route de la soie

Apprenez � conna�tre la Chine

OpenAI a propos� une nouvelle m�thode de m�ta-apprentissage pour r�gler la fonction de perte pour la formation rapide sur la nouvelle mission