OpenAI a proposé une nouvelle méthode de méta-apprentissage pour régler la fonction de perte pour la formation rapide sur la nouvelle mission

OpenAI a publié une méthode méta-apprentissage expérimental Evolved politique Dégradés (EPG), dont la fonction perdue de l'apprentissage agent a évolué pour la formation rapide sur la nouvelle mission. Lors d'un essai en utilisant l'EPG un agent formé peut réussir dans les domaines de la formation au-delà des tâches de base, telles que l'apprentissage de la position de l'objet lorsque l'objet de la position d'une formation de navigation à l'épreuve (l'autre côté de la pièce).

la formation des agents EPG, d'avoir une connaissance préalable de la façon de progresser dans la nouvelle tâche. EPG n'est pas appris par la connaissance préalable de la stratégie de codage de réseau, mais encode pour apprendre de la perte de la fonction. Après cela, l'agent sera en mesure d'utiliser la fonction de perte (convolution est définie comme le moment du réseau de neurones) apprendre rapidement de nouvelles tâches. OpenAI montre EPG peut être généralisé à dépasser la répartition des tâches de test (hors distribution), et ses performances avec d'autres algorithme de méta-apprentissage populaire qualitativement différent. Dans les tests, les chercheurs ont constaté que la formation plus rapide que l'agent EPG PPO (une méthode de gradient hors politique). Pour renforcer l'étude d'apprentissage agent (programmation génétique pour la recherche de la fonction de récompense, etc.) conçus pour fonctionner en forme de récompense liée à l'EPG précédent, EPG, mais cette idée généralisée à l'évolution d'une perte complète de la fonction, ce qui signifie que la perte de la fonction doit apprendre interne efficace ferraillage algorithme d'apprentissage.

La première vidéo montre comment un robot de façon OpenAI à l'église pour atteindre l'objectif différent sans réinitialiser l'environnement, et la deuxième vidéo est une méthode PPO. en haut à gauche numérique indique le nombre actuel de mise à jour d'apprentissage. Notez que la vidéo montre le processus d'apprentissage en temps réel complet.

EPG derrière la conception de notre conscience sont tous familiers avec l'idée: essayer d'apprendre de nouvelles compétences, l'expérience en alternance le processus de frustration et de joie. Supposons que vous venez de commencer à apprendre à jouer du violon, même s'il n'y a personne pour guider, vous pouvez vous sentir immédiatement ce qu'il faut essayer. Écouter leur propre voix jouent, vous pouvez sentir s'il y a des progrès, parce que vous avez la fonction de récompense interne son, qui vient de l'expérience transcendantale d'autres tâches motrices et évolution dans le processus de l'évolution biologique. Au lieu de cela, la plupart des agents de renforcement apprentissage connaissances préalables n'est pas utilisé en contact avec une nouvelle tâche, mais totalement dépendante de récompenses externes signal initial à un comportement de guidage. Commencez par un état vierge, pas étonnant que l'agent d'apprentissage de renforcement en cours dans l'apprentissage des compétences simples que les humains d'être encore proche. EPG par l'expérience passée dans des tâches similaires, la Corée du Nord « est pas un état de vide, de savoir comment faire pour compléter les nouvelles tâches » agent d'une étape.

EPG comprend deux boucles d'optimisation. A l'intérieur de la boucle, l'agent apprend à partir de zéro pour résoudre des tâches spécifiques d'échantillonnage d'une classe de tâches. Ces tâches pourraient être « pince mobile à un emplacement ". Le recyclage interne de descente de gradient stochastique (SGD) pour optimiser la stratégie d'agent contre la perte de fonction à l'extérieur de la boucle. Les cycles d'apprentissage boucle interne résultant revenir évaluation externe, et l'utilisation de la stratégie d'évolution (ES) d'ajustement de paramètre de fonction de perte à apporter à apporter des rendements plus élevés du fait de la nouvelle fonction de perte.

Ont appris de la fonction de perte présente plusieurs avantages par rapport aux méthodes actuelles d'apprentissage de renforcement: en utilisant la stratégie évolutive à l'évolution de la fonction de perte nous permet d'optimiser le but réel (la performance de la stratégie de formation finale) plutôt que le rendement à court terme des résultats, EPG adapter en ajustant la fonction de perte l'environnement et l'agent de l'histoire, ce qui est supérieur à l'algorithme d'apprentissage de renforcement standard.

La figure montre OpenAI façon d'enseigner un saut de robot en arrière, le tableau suivant est une méthode PPO. EPG permet d'explorer le comportement de l'agent, l'agent dans le courant inverse de la marche sera bring've essayé de marcher avant de récompense inverse élevé. en haut à gauche numérique indique le nombre actuel de mise à jour d'apprentissage. Notez que la vidéo montre le processus d'apprentissage en temps réel complet.

Récemment il y a eu beaucoup de recherches sur la stratégie méta-apprentissage, nous devons apprendre à se demander pourquoi la perte de la fonction, plutôt que la stratégie d'apprentissage directe? stratégie de cycle d'apprentissage peut rendre la tâche en cours est apparu en forme, et des stratégies d'apprentissage limitera l'expression d'initialisation lors de l'exploration. la motivation OpenAI est une fonction de la perte attendue peut être une bonne généralisation à un grand nombre de tâches différentes. Cela vaut évidemment pour régler manuellement la fonction de perte: la conception d'une perte complète de l'apprentissage de renforcement de la fonction (tels que la perte de la fonction PPO) peut être largement utilisé dans un certain nombre de tâches (du jeu Atari pour contrôler le robot).

Pour tester l'EPG de capacité de généralisation, les chercheurs ont mis en place une expérience simple, la perte de EPG d'évolution jusqu'à ce que l'agent « fourmi » déplacer efficacement à une position aléatoire de la cible circulaire sur le côté droit du stade. Ensuite, la fonction de perte fixe, fourmi à une nouvelle cible, qui est la gauche du temps. Étonnamment, les fourmis ont appris à aller à gauche! Ci-dessous l'affichage de la courbe d'apprentissage (ligne rouge):

Le résultat est très bon, car il montre la généralisation des résultats dans la tâche de « formation au-delà de la distribution » dans. Cette généralisation est difficile à réaliser. OpenAI chercheurs EPG avec un autre algorithme de méta-apprentissage RL2 ont été comparés, ce dernier essai de stratégies d'apprentissage direct peuvent être utilisés pour de nouvelles tâches. Les expériences montrent que, RL2 peut en effet réussi à obtenir l'agent de cibler le côté droit de l'écran. Cependant, lorsque la cible si le test est sur le côté gauche de l'écran, l'agent échoue, ou aller directement à droite. En d'autres termes, il produit sur une mission de formation mis en place (et allez à droite) « surajustement. »

La vidéo ci-dessus (voir le texte) présente une méthode de OpenAI (à gauche) comment le robot de marche de l'église à partir de zéro et atteindre la cible (cercle vert), le droit est RL2. en haut à gauche numérique indique le nombre actuel de mise à jour d'apprentissage. Notez que la vidéo montre le processus d'apprentissage complet à 3 fois la vitesse en temps réel.

Et, comme toutes les méthodes de méta-apprentissage, où il y a encore beaucoup de restrictions. Maintenant, nous pouvons former un accord unique avec la perte de la fonction d'une classe de tâche EPG, par exemple, laisser une fourmi marchant autour. Cependant, la fonction de perte EPG peut ne pas être efficace pour ces tâches à d'autres différents types de tâches, telles que la lecture de jeu « Space Invaders ». En revanche, les pertes standard RL ont cette généralisation, la même perte de fonction peut être utilisée pour apprendre beaucoup de compétences différentes. EPG obtenir de meilleures performances, mais la généralisation perdue. En même temps, afin d'obtenir la capacité de performance et de la généralisation, la méthode de méta-apprentissage a encore un long chemin à parcourir.

Ne doit pas être reproduit sans autorisation: Numéro de réseau Chi »OpenAI a proposé une nouvelle méthode de méta-apprentissage pour régler la fonction de perte pour la formation rapide sur la nouvelle mission

Briser 600 millions! « Monstre violent », « grandir du jour au lendemain, » fragments de roche singe géant qui sont encore toucher l'amitié
Précédent
PDG Dai Xiang soudainement cognitive Shuai: Situation Voix voiture encore, utilisez la coupe « lourd » dans le service après-vente de voiture avant
Prochain
Le magasin de Millet sur le nouveau, des petits animaux sauvages expérience du renseignement M3 pour commencer la filature
Sun Jian Tai Weiqu! Play « homme laitier » feu tous les jours pour être amis demandé à quelle heure le divorce!
« Jeune et belle » « plagiat » piège, jurant diffusion à l'intérieur de l'histoire Pourquoi?
casque sans fil léger et confortable, MIFO de démarrage rapide pour l'expérience de la vague magique O5
Un autre grand drame costume Feng Shao Feng propagande officielle! Non Zhao Liying, les femmes se révéla être elle!
Trump est venu à Hollywood à la fin?
"Catherine Full Body": nouvelle bande-annonce adultes Acheron 06
Dou Jing Tong bon karma ou votre cercle est trop désordonné? Zhou Xun Yapeng à nouveau après une période de plusieurs années « dans le cadre »
Entretien avec Zhao Gang | après BAT, Jingdong Pourquoi rejoindre champ de bataille AR?
Nuts U14K épisode TV laser une minute pour vendre 1200 unités montrer?
La Chine est devenue positive en bon patron, beaucoup de femme maître Mengliao, juste trop!
Ce rapport aux hommes et aux femmes-take-all drame d'espionnage Espagne Ares, le drame de guerre espion vraiment épicé yeux maison