OpenAI article lourd est sorti, huit types d'environnement de simulation de robot virtuel devient un point lumineux

OpenAI a récemment introduit le laboratoire en 2017 pour construire les huit types d'environnement de simulation de robot et une nouvelle techniques d'apprentissage de renforcement qui sont utilisés pour former l'intelligence artificielle pour le modèle final du robot réel. En même temps, le laboratoire a également fait un certain nombre d'être dans le domaine de la robotique pour répondre à la recherche de nouvelles questions.

La construction de huit types d'environnement de simulation de robot à l'aide de la plate-forme de simulation physique MuJoCo. L'environnement de simulation 8 sont:

prendre

Figure Pick-up - Arrivée  v0: le bras est déplacé vers une position donnée pour obtenir le choix.

Figure Pick - contact v0 : Bras une touche sur la petite boule sur le bureau, de sorte que la balle roule sur le bureau, à l'emplacement spécifié.

Figure Pick-up - continuer à pousser v0 : Les armes continuent de promouvoir une boîte jusqu'à ce qu'il soit poussé à l'emplacement spécifié.

Figure Pick - mouvement flottant et le placement v0 : Choisir une boîte, autorisé à quitter la table est déplacée à la position spécifiée ci-dessus, et puis vers le bas.

paume virtuelle

Figure v0 de palme virtuelle : Besoin de palme virtuelle pour contrôler le pouce et un doigt sélectionné, laissez-le toucher la zone désignée sur la paume de votre main.

Figure paume virtuelle - v0 contrôle de zone : Paume virtuel jouant avec la boîte à la main, jusqu'à ce que le point et la position de la boîte pour répondre aux exigences.

Figure paume virtuelle - contrôle oeuf v0 : Jouer un uf de palme virtuelle, l'uf jusqu'à ce qu'il pointe et l'emplacement pour répondre aux exigences.

Figure paume de votre main virtuelle - commande levier v0 : Paume virtuel jouant avec un bâton jusqu'à ce qu'il a position de la tige et de répondre aux exigences.

objectif

8 ou de l'environnement de simulation plus commun, Nous avons fixé un objectif pour le robot virtuel , Tel que l'objet est poussé à la position spécifiée, ou aller à la position spécifiée. Si la cible n'est pas terminée, le robot virtuel obtient -1 points, si elle est réalisée, un score de 0 - Cette méthode de notation de notation avec la plate-forme Walker2d-v2 traditionnelle sont significativement différentes.

De plus, l'équipe a également créé leur propre système de récompenses pour différents environnements de simulation. Cependant, les chercheurs croient, le système « de retour clairsemée » le plus proche de l'environnement réel de fonctionnement du robot, nous vous recommandons d'adopter ce système de récompense prioritaire.

Renforcement Algorithme d'apprentissage

L'équipe de recherche mis en place de l'algorithme d'apprentissage de renforcement Hindsight Replay Expérience (HER) peut apprendre de l'échec. Les expériences montrent que, pour la plupart des questions de recherche dans le domaine de la robotique, ses modèles disponibles peuvent être générés que par notre système récompense clairsemée.

Son introduction principe

L'équipe avec le choix - touche environnement de simulation v0, a expliqué comment la SA. L'objectif de l'environnement de simulation est: toucher la balle sur un manipulateur de bureau, laissez rouler la boule sur le bureau, pour atteindre la cible. La première tentative est peu probable de réussir, les prochains quelques fois est peu probable, de sorte que le score est toujours -1. L'algorithme d'apprentissage de renforcement traditionnel n'a pas eu environnement d'apprentissage ne peuvent pas atteindre leurs objectifs dans cette neutralisation.

SA est innovante: Même si elle n'a pas atteint la cible à plusieurs reprises, le robot a atteint au moins une autre cible . Il peut donc mettre la « cible involontaire » comme un début. De cette façon, l'algorithme d'apprentissage de renforcement peut être atteint pour atteindre certains objectifs et l'apprentissage - même si cet objectif n'est pas le but ultime. Il suffit de répéter ce processus graduel, le robot finira par atteindre les objectifs visés.

Début Apprentissage par renforcement le résumé de l'affaire, HER système ne peut pas une fois atteint l'objectif initial. Le secret du système est « jeu qui se réfère à ce que », qui est le robot cible intermédiaire a été sélectionné après avoir frappé la balle. « Ce qui signifie que la lutte qui » méthode des méthodes couramment utilisées dans l'apprentissage de la machine, HER possible avec une nouvelle stratégie basée sur l'algorithme d'apprentissage par renforcement (hors politique algorithme de RL), tels que DQN et GPDD et autre combinaison.

Résultats des tests

Les tests montrent, ses cibles dans des conditions d'attribution « de retour rares » pour atteindre un excellent environnement de simulation de performance, en particulier comme indiqué ci-dessous:

Figure taux de réussite Shu en valeur (ligne) et Interquartile (zone ombrée) sont dans une paume virtuelle - environnement de test du boîtier de commande v0 disponible.

GPDD dans des conditions rares + HER algorithme renvoie la meilleure performance, mais il est intéressant de noter que, GPDD + sa performance de l'algorithme dans des conditions de rendement intensif, mais pire. GPDD algorithme original, peu importe ce que les conditions de récompense, les performances ne sont pas satisfaisants. De plus, les performances de chaque différence de l'algorithme est resté stable dans la plupart environnement expérimental.

La recherche de suivi

HER algorithme pour revenir dans des conditions de tâches axées sur les buts clairsemés complexes et offre un nouveau moyen de règlement, mais il y a encore beaucoup de place pour l'amélioration, en particulier, l'équipe de recherche a proposé une étude de suivi des problèmes suivants:

1. " Ce qui signifie que l'établissement d'objectifs de jeu automatique qui « algorithme . Le courant «qui se réfère à la lutte qui » algorithme, un objectif intermédiaire ne peut être réglée manuellement.

2, HER non biaisé . La sélection cible intermédiaire actuelle n'est pas une règle stricte, ce qui, en théorie, peut conduire à l'instabilité des résultats d'apprentissage, bien que cette affaire l'expérience n'a pas été trouvé. Cependant, l'équipe croit, basée sur un échantillonnage d'importance et d'autres techniques, peut atteindre impartiale HER par des règles strictes.

3, HER apprentissage par renforcement et de la hiérarchie (apprentissage par renforcement hiérarchique, HRL). Combinaison . Cela peut être étendu à HER d'une cible unique dans la hiérarchie.

4, Plus de types de fonction de valeur . Peut-types plus de la fonction de valeur, tels que le facteur d'amortissement (facteur d'actualisation) ou le seuil de réussite (seuil de réussite) dans le « combat qui se réfère à ce que » algorithme?

5, transfert d'information plus rapide . La plupart de la nouvelle profondeur de la stratégie de l'algorithme d'apprentissage de renforcement pour assurer la stabilité de la formation du réseau cible. Cependant, en raison de changements dans la conduction modèle prend du temps, et donc la stabilité requise est devenue le principal facteur limitant GPDD + sa vitesse d'apprentissage. Peut-être que la vitesse peut être augmentée en utilisant d'autres méthodes de la stratégie stable.

6, HER + retour en plusieurs étapes . Sur la base de la « lutte qui se réfère à ce que » elle et l'objectif intermédiaire d'une nouvelle stratégie est typique de l'algorithme d'apprentissage de renforcement, il est difficile d'adopter une fonction de retour à plusieurs étapes (retours en plusieurs étapes). Cependant, la fonction de la vitesse de retour d'information de retour en plusieurs étapes plus rapidement, de sorte que la recherche sur comment l'intégrer algorithme vaut la peine.

7, la stratégie annoncée (sur la politique) SA . À l'heure actuelle, en raison de l'introduction d'un objectif intermédiaire, HER algorithme ne peut utiliser la nouvelle politique. Mais les gens, les algorithmes et autres PPO basés sur la politique établie de montrer une grande stabilité, il est nécessaire d'étudier comment l'articulation par son importance méthodes d'échantillonnage associée. L'étude a déjà obtenu des résultats initiaux.

8, activités d'apprentissage de renforcement continu . À l'heure actuelle, dans le cas de contrôle continu, et renforcer la performance de l'algorithme d'apprentissage est très pauvre, d'une part en raison de l'extrapolation continue, d'autre part que les informations de retour ne sont pas de retour de rétroaction en temps opportun. Comment concevoir l'algorithme d'apprentissage de renforcement de s'adapter aux applications de contrôle continu reste un problème.

9, SA sera combiné avec d'autres algorithme récent d'apprentissage de renforcement . Certaines options possibles sont une revue prioritaire d'expérience (priorisé Expérience Replay), l'apprentissage de renforcement distribué (RL distributive), l'apprentissage de renforcement de régularisation entropie (entropie régularisés RL,), l'apprentissage inverse de renforcement du cours (génération de programmes inverse).

Plus d'informations peuvent être trouvées dans le rapport technique publié par l'équipe de recherche:

https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/ingredients-for-robotics-research/technical-report.pdf

Guide du nouvel environnement de simulation

Le nouvel environnement de simulation fondé sur les objectifs, la nécessité d'apporter les modifications suivantes à l'environnement de simulation existant:

Tout environnement de simulation fondé sur les objectifs sont utilisés espace d'observation gym.spaces.Dict. Environnement de simulation devrait inclure l'état objectif final (esired_goal), atteignent actuellement l'objectif (achieved_goal) et les robots (observation).

Le système de simulation permet à la valeur de retour est recalculé en fonction des changements dans la fonction de la cible, afin de faire des algorithmes basés sur HER peuvent être exécutés.

Les chercheurs sont donnés un exemple simple pour démontrer l'environnement de simulation fondé sur les objectifs, ainsi que « le jeu qui se réfère à ce que » le processus de sélection d'algorithmes cibles intermédiaires.

Le nouvel environnement de simulation fondé sur les objectifs peut être compatible avec l'algorithme d'apprentissage de renforcement existant, comme Baselines.Use, etc., mais doit d'abord être converti en utilisant l'espace d'observation gym.wrappers.FlattenDictWrapper nécessaire pour le format de la matrice.

retour Yeh! Apportez film « King of Comedy » guerre de décrochage Nouvel an chinois
Précédent
Wang Lan: publique Tencent un espace pour connecter les entrepreneurs mondiaux AI
Prochain
fille de deux pas de l'homme ho a acheté six grandes bague en diamant marier les utilisateurs: La pauvreté limite l'imagination
PP main sport médias sportifs ensemble pour créer l'expérience utilisateur ultime Coupe du Monde
Il a, par inadvertance, les scientifiques rêvent de la scène astronomique, le résultat est « Nature » inclus!
Architecture articles réels: une petite équipe de référence pour la pile de technologie de l'architecture micro-services
étape de la précision de la carte de haute précision par étape, startups grand tabouret se vantait: un an après les cartographes existants
couche cellulaire s'en tête l'espace de la propriété, certains ont également été loués
[III] ishare de détail est devenu un nouveau point chaud, les entrepreneurs Chengdu comment enrouler le ciel?
produits non utilisés deviennent de cadeaux, « a dit apprécier » B ronde de financement, programme pour enfants « Little King de code » 130000000
tissu Apple « roi du bombardement du Conseil » dans le domaine des semi-conducteurs! Qualcomm, Samsung dure depuis plusieurs années pour se débarrasser de la chasse du destin amer
Sun Wu Lei sur gagner annuaire Port: rêve d'origine va certainement arriver
Allemagne Boeing 777 volant des situations inattendues! Ils ont tiré d'urgence
vacances singe programme, le score de cresson de huit cerveau graver des films ne laissez pas votre cerveau vers le bas!