OpenAI a r�cemment introduit le laboratoire en 2017 pour construire les huit types d'environnement de simulation de robot et une nouvelle techniques d'apprentissage de renforcement qui sont utilis�s pour former l'intelligence artificielle pour le mod�le final du robot r�el. En m�me temps, le laboratoire a �galement fait un certain nombre d'�tre dans le domaine de la robotique pour r�pondre � la recherche de nouvelles questions.

La construction de huit types d'environnement de simulation de robot � l'aide de la plate-forme de simulation physique MuJoCo. L'environnement de simulation 8 sont:

prendre

Figure Pick-up - Arriv�e �v0: le bras est d�plac� vers une position donn�e pour obtenir le choix.

Figure Pick - contact v0 : Bras une touche sur la petite boule sur le bureau, de sorte que la balle roule sur le bureau, � l'emplacement sp�cifi�.

Figure Pick-up - continuer � pousser v0 : Les armes continuent de promouvoir une bo�te jusqu'� ce qu'il soit pouss� � l'emplacement sp�cifi�.

Figure Pick - mouvement flottant et le placement v0 : Choisir une bo�te, autoris� � quitter la table est d�plac�e � la position sp�cifi�e ci-dessus, et puis vers le bas.

paume virtuelle

Figure v0 de palme virtuelle : Besoin de palme virtuelle pour contr�ler le pouce et un doigt s�lectionn�, laissez-le toucher la zone d�sign�e sur la paume de votre main.

Figure paume virtuelle - v0 contr�le de zone : Paume virtuel jouant avec la bo�te � la main, jusqu'� ce que le point et la position de la bo�te pour r�pondre aux exigences.

Figure paume virtuelle - contr�le oeuf v0 : Jouer un uf de palme virtuelle, l'uf jusqu'� ce qu'il pointe et l'emplacement pour r�pondre aux exigences.

Figure paume de votre main virtuelle - commande levier v0 : Paume virtuel jouant avec un b�ton jusqu'� ce qu'il a position de la tige et de r�pondre aux exigences.

objectif

8 ou de l'environnement de simulation plus commun, Nous avons fix� un objectif pour le robot virtuel , Tel que l'objet est pouss� � la position sp�cifi�e, ou aller � la position sp�cifi�e. Si la cible n'est pas termin�e, le robot virtuel obtient -1 points, si elle est r�alis�e, un score de 0 - Cette m�thode de notation de notation avec la plate-forme Walker2d-v2 traditionnelle sont significativement diff�rentes.

De plus, l'�quipe a �galement cr�� leur propre syst�me de r�compenses pour diff�rents environnements de simulation. Cependant, les chercheurs croient, le syst�me � de retour clairsem�e � le plus proche de l'environnement r�el de fonctionnement du robot, nous vous recommandons d'adopter ce syst�me de r�compense prioritaire.

Renforcement Algorithme d'apprentissage

L'�quipe de recherche mis en place de l'algorithme d'apprentissage de renforcement Hindsight Replay Exp�rience (HER) peut apprendre de l'�chec. Les exp�riences montrent que, pour la plupart des questions de recherche dans le domaine de la robotique, ses mod�les disponibles peuvent �tre g�n�r�s que par notre syst�me r�compense clairsem�e.

Son introduction principe

L'�quipe avec le choix - touche environnement de simulation v0, a expliqu� comment la SA. L'objectif de l'environnement de simulation est: toucher la balle sur un manipulateur de bureau, laissez rouler la boule sur le bureau, pour atteindre la cible. La premi�re tentative est peu probable de r�ussir, les prochains quelques fois est peu probable, de sorte que le score est toujours -1. L'algorithme d'apprentissage de renforcement traditionnel n'a pas eu environnement d'apprentissage ne peuvent pas atteindre leurs objectifs dans cette neutralisation.

SA est innovante: M�me si elle n'a pas atteint la cible � plusieurs reprises, le robot a atteint au moins une autre cible . Il peut donc mettre la � cible involontaire � comme un d�but. De cette fa�on, l'algorithme d'apprentissage de renforcement peut �tre atteint pour atteindre certains objectifs et l'apprentissage - m�me si cet objectif n'est pas le but ultime. Il suffit de r�p�ter ce processus graduel, le robot finira par atteindre les objectifs vis�s.

D�but Apprentissage par renforcement le r�sum� de l'affaire, HER syst�me ne peut pas une fois atteint l'objectif initial. Le secret du syst�me est � jeu qui se r�f�re � ce que �, qui est le robot cible interm�diaire a �t� s�lectionn� apr�s avoir frapp� la balle. � Ce qui signifie que la lutte qui � m�thode des m�thodes couramment utilis�es dans l'apprentissage de la machine, HER possible avec une nouvelle strat�gie bas�e sur l'algorithme d'apprentissage par renforcement (hors politique algorithme de RL), tels que DQN et GPDD et autre combinaison.

R�sultats des tests

Les tests montrent, ses cibles dans des conditions d'attribution � de retour rares � pour atteindre un excellent environnement de simulation de performance, en particulier comme indiqu� ci-dessous:

Figure taux de r�ussite Shu en valeur (ligne) et Interquartile (zone ombr�e) sont dans une paume virtuelle - environnement de test du bo�tier de commande v0 disponible.

GPDD dans des conditions rares + HER algorithme renvoie la meilleure performance, mais il est int�ressant de noter que, GPDD + sa performance de l'algorithme dans des conditions de rendement intensif, mais pire. GPDD algorithme original, peu importe ce que les conditions de r�compense, les performances ne sont pas satisfaisants. De plus, les performances de chaque diff�rence de l'algorithme est rest� stable dans la plupart environnement exp�rimental.

La recherche de suivi

HER algorithme pour revenir dans des conditions de t�ches ax�es sur les buts clairsem�s complexes et offre un nouveau moyen de r�glement, mais il y a encore beaucoup de place pour l'am�lioration, en particulier, l'�quipe de recherche a propos� une �tude de suivi des probl�mes suivants:

1. " Ce qui signifie que l'�tablissement d'objectifs de jeu automatique qui � algorithme . Le courant �qui se r�f�re � la lutte qui � algorithme, un objectif interm�diaire ne peut �tre r�gl�e manuellement.

2, HER non biais� . La s�lection cible interm�diaire actuelle n'est pas une r�gle stricte, ce qui, en th�orie, peut conduire � l'instabilit� des r�sultats d'apprentissage, bien que cette affaire l'exp�rience n'a pas �t� trouv�. Cependant, l'�quipe croit, bas�e sur un �chantillonnage d'importance et d'autres techniques, peut atteindre impartiale HER par des r�gles strictes.

3, HER apprentissage par renforcement et de la hi�rarchie (apprentissage par renforcement hi�rarchique, HRL). Combinaison . Cela peut �tre �tendu � HER d'une cible unique dans la hi�rarchie.

4, Plus de types de fonction de valeur . Peut-types plus de la fonction de valeur, tels que le facteur d'amortissement (facteur d'actualisation) ou le seuil de r�ussite (seuil de r�ussite) dans le � combat qui se r�f�re � ce que � algorithme?

5, transfert d'information plus rapide . La plupart de la nouvelle profondeur de la strat�gie de l'algorithme d'apprentissage de renforcement pour assurer la stabilit� de la formation du r�seau cible. Cependant, en raison de changements dans la conduction mod�le prend du temps, et donc la stabilit� requise est devenue le principal facteur limitant GPDD + sa vitesse d'apprentissage. Peut-�tre que la vitesse peut �tre augment�e en utilisant d'autres m�thodes de la strat�gie stable.

6, HER + retour en plusieurs �tapes . Sur la base de la � lutte qui se r�f�re � ce que � elle et l'objectif interm�diaire d'une nouvelle strat�gie est typique de l'algorithme d'apprentissage de renforcement, il est difficile d'adopter une fonction de retour � plusieurs �tapes (retours en plusieurs �tapes). Cependant, la fonction de la vitesse de retour d'information de retour en plusieurs �tapes plus rapidement, de sorte que la recherche sur comment l'int�grer algorithme vaut la peine.

7, la strat�gie annonc�e (sur la politique) SA . � l'heure actuelle, en raison de l'introduction d'un objectif interm�diaire, HER algorithme ne peut utiliser la nouvelle politique. Mais les gens, les algorithmes et autres PPO bas�s sur la politique �tablie de montrer une grande stabilit�, il est n�cessaire d'�tudier comment l'articulation par son importance m�thodes d'�chantillonnage associ�e. L'�tude a d�j� obtenu des r�sultats initiaux.

8, activit�s d'apprentissage de renforcement continu . � l'heure actuelle, dans le cas de contr�le continu, et renforcer la performance de l'algorithme d'apprentissage est tr�s pauvre, d'une part en raison de l'extrapolation continue, d'autre part que les informations de retour ne sont pas de retour de r�troaction en temps opportun. Comment concevoir l'algorithme d'apprentissage de renforcement de s'adapter aux applications de contr�le continu reste un probl�me.

9, SA sera combin� avec d'autres algorithme r�cent d'apprentissage de renforcement . Certaines options possibles sont une revue prioritaire d'exp�rience (prioris� Exp�rience Replay), l'apprentissage de renforcement distribu� (RL distributive), l'apprentissage de renforcement de r�gularisation entropie (entropie r�gularis�s RL,), l'apprentissage inverse de renforcement du cours (g�n�ration de programmes inverse).

Plus d'informations peuvent �tre trouv�es dans le rapport technique publi� par l'�quipe de recherche:

https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/ingredients-for-robotics-research/technical-report.pdf

Guide du nouvel environnement de simulation

Le nouvel environnement de simulation fond� sur les objectifs, la n�cessit� d'apporter les modifications suivantes � l'environnement de simulation existant:

Tout environnement de simulation fond� sur les objectifs sont utilis�s espace d'observation gym.spaces.Dict. Environnement de simulation devrait inclure l'�tat objectif final (esired_goal), atteignent actuellement l'objectif (achieved_goal) et les robots (observation).

Le syst�me de simulation permet � la valeur de retour est recalcul� en fonction des changements dans la fonction de la cible, afin de faire des algorithmes bas�s sur HER peuvent �tre ex�cut�s.

Les chercheurs sont donn�s un exemple simple pour d�montrer l'environnement de simulation fond� sur les objectifs, ainsi que � le jeu qui se r�f�re � ce que � le processus de s�lection d'algorithmes cibles interm�diaires.

Le nouvel environnement de simulation fond� sur les objectifs peut �tre compatible avec l'algorithme d'apprentissage de renforcement existant, comme Baselines.Use, etc., mais doit d'abord �tre converti en utilisant l'espace d'observation gym.wrappers.FlattenDictWrapper n�cessaire pour le format de la matrice.

Route de la soie

Apprenez � conna�tre la Chine

OpenAI article lourd est sorti, huit types d'environnement de simulation de robot virtuel devient un point lumineux