Cercles | vous avez besoin de nouvelles façons de surmonter la curiosité de l'apprentissage par renforcement « pour développer la maladie. »

Technologie AI Revue de presse : Apprentissage par renforcement (RL) est l'une des recherche sur l'apprentissage contemporaine la plus active machine, qui récompense lorsque l'agent fait la bonne chose, ou bien puni. Cette méthode de « carotte et du bâton » simple, polyvalent, et peut aider à enseigner l'algorithme DQN DeepMind jeux classiques jeux Atari et AlphaGo échecs zéro De même OpenAI utilisent aussi pour enseigner RL OpenAI-Cinq algorithme de jouer aux jeux vidéo Dota , Google grâce à l'apprentissage par renforcement de laisser le bras de robot pour les objets d'appui . Cependant, malgré une étude intensive avec un certain succès, mais pour en faire une technique efficace, il y a encore de nombreux défis.

l'environnement de la rétroaction de l'agent, il est difficile d'utiliser l'algorithme standard RL, il est essentiel que la rétroaction clairsemée est souvent le cas dans le monde réel. Par exemple, imaginez comment un grand labyrinthe de supermarché apprendre comment trouver votre fromage préféré. Vous avez cherché et cherché, mais la zone de fromage est encore nulle part. Si vous ne l'avez pas été « carotte » ou « bâton » à chaque étape du voyage, il ne peut pas déterminer si vous êtes dans la bonne direction. En l'absence de circonstances incitations, ce qui vous empêche d'errer dans les cercles? En plus de votre mécanisme de curiosité avait pas le choix, la curiosité vous poussera à entrer dans une partie du produit ne semble pas familier, vous cherchez à trouver le fromage.

La curiosité à propos de l'article, AI Technology Review had've avait quelques-uns, par exemple sur le labyrinthe Agent " Utilisez la curiosité d'apprendre à faire les évaluations de rares tâche « La curiosité et la discussion du concept lui-même. » l'apprentissage axée sur la curiosité, de sorte que l'apprentissage par renforcement plus facile ". Google a également proposé de mettre en uvre une nouvelle curiosité et écrit le blog d'introduction. Texte intégral compilé comme suit.

La curiosité de cette nouvelle mise en uvre

Dans le document « peut être la situation et la mise en uvre de la curiosité fondée » « Curiosité épisodique par joignabilité » (https://arxiv.org/abs/1810.02274), le cerveau Google, DeepMind et l'EPF de Zurich ont proposé conjointement une nouvelle mémoire épisodique (mémoire épisodique) modèle basé, ce qui peut inciter à une étude intensive, similaire au mécanisme de curiosité peut explorer l'environnement. Puisque nous voulons l'agent d'explorer non seulement l'environnement mais aussi pour résoudre la tâche d'origine, donc nous récompenserons la valeur ajoutée au modèle original fourni dans la quête clairsemée. La récompense combinée n'est plus clairsemée, ce qui rend algorithme standard amélioré peut apprendre. Par conséquent, la nouvelle méthode de curiosité Google étend le champ d'application de l'apprentissage de renforcement.

Sur la base du scénario curiosité de disponibilité: observé est ajouté à la mémoire, la récompense est calculé en fonction de la distance d'observation et la mémoire de courant de la plupart des observations similaires. Étant donné que les observations obtenues dans la mémoire n'a pas encore paru, l'agent obtiendra plus de récompenses.

L'idée principale est la méthode Google agent observations sont stockées dans l'environnement dans la mémoire épisodique, tandis que l'agent pour obtenir la mémoire des observations est également aucune récompense. « Il n'y a pas de mémoire » de cette méthode est que la définition de Google de nouveauté recherche mémoire observations aucun moyen de chercher quelque chose ne connaissent pas. Vous recherchez scène étrange fait cette intelligence artificielle de dynamique pour atteindre le nouvel emplacement, l'empêchant ainsi de l'errance et aider finalement il trouver la cible dans l'accident dans le cercle. Comme on le verra plus loin, cette approche permet à l'agent d'éviter certains des mauvais comportement des autres méthodes sujettes - donc les chercheurs de Google ont été surpris que le mauvais comportement aux yeux d'un étranger comme un « retard ».

Méthode précédente curiosité

Bien que dans le passé pour essayer de travailler dans les deux de nombreuses méthodes de curiosité, mais plus préoccupée par Google dans cet article est un article récent « Exploration motivée par la curiosité par Auto- prévision supervisée « (https://pathak22.github.io/noreward-rl/) exploré très populaire de façon naturelle: basée sur la curiosité surprise prédite (souvent appelée en tant que module intrinsèque de la curiosité, le module intrinsèque de curiosité, ICM) . Pour illustrer la surprise la cause curiosité, revenons à « trouver du fromage au supermarché » exemple.

Quand vous marchez sur le marché, vous essayez de prédire l'avenir ( « Maintenant, je suis dans la région de la viande, donc je pense qu'une partie du coin est des zones fraîches, comme dans les chaînes de supermarchés dans ces zones sont généralement adjacentes »). Si votre prédiction est fausse, vous serez surpris ( « Non, il est en fait une zone végétale. Je ne pensais pas! ») Et ainsi récompensé. Cela vous donne plus motivé pour rechercher le coin de la rue, d'explorer un nouvel emplacement, vous attendez à voir si réaliste (et du fromage occasionnel espoir).

(Tels que lorsque les notes données surprise ou la nouveauté) De même, la méthode ICM pour établir un modèle de prévision de la dynamique du monde, et quand le modèle ne parvient pas à faire un bon prédicteur donner de récompense agent. S'il vous plaît noter, explorer la partie inconnue de la position de l'ICM n'appartient pas à la curiosité du chemin. Pour ICM moyen d'y accéder juste pour obtenir approche plus « surprise », afin de maximiser le prix global. Il se trouve que le résultat de la présence d'autres moyens pour surprendre, conduisant à imprévisible dans certains environnements possibles.

Basé surpris agent de curiosité, après avoir rencontré la télévision immobile figea

« Retard » dangereux

Dans la « grande échelle études sur l'apprentissage motivée par la curiosité » article, les auteurs méthode ICM et des chercheurs OpenAI pour démontrer une maximisation de la « surprise » danger caché: l'agent peut apprendre à se livrer à un comportement de procrastination, au lieu de faire des choses utiles pour la tâche à accomplir. Pour discerner pourquoi, nous regardons une expérience de pensée commune, les auteurs appellent « les problèmes de bruit TV » (problème de la télévision bruyante): un corps intelligent est placé dans un labyrinthe et est responsable de trouver un des objets très précieux (semblable à notre supermarchés cas avant l'expérience dans « fromage ») de. Comprenant en outre un environnement de télévision, un nombre limité de canaux (chaque canal a un programme différent), l'agent a une télécommande de télévision, l'interrupteur de commande à distance sur un canal de manière aléatoire à chaque fois enfoncée, dans un tel environnement, la performance de l'agent comment faire?

Pour les déclarations sont basées sur la méthode de la curiosité de surprise, changer le canal aura un retour énorme, parce que chaque fois qu'un changement est imprévisible et surprenant. Il est important, même après toutes les boucles disponibles canaux, sélection de canal aléatoire est toujours surprenant de nouveaux changements, l'agent est prévu après un changement de canal ce qui se passe à la télévision, il peut se tromper, surprendre. Il est important, même si l'agent avait vu chaque programme chaque canal, ce changement est toujours imprévisible. Par conséquent, plein d'agent de curiosité surprenante par la suite restera toujours devant la télévision, plutôt que de chercher un programme très utile, avec le « retard » exactement la même chose. Alors, comment définir la curiosité ne conduira pas à un tel comportement?

scénario curiosité

Dans le document « peuvent et scénarios de mise en uvre en fonction du type de curiosité » dans les chercheurs de Google ont exploré un scénario basé sur le modèle de mémoire de curiosité, les résultats montrent que ce modèle est pas facile de rendre le corps à produire intelligente « complaisant » instantanée satisfaction. Pourquoi? Par exemple, tout comme la télévision, la chaîne pendant un certain temps après la remise, tous les programmes stockés dans la mémoire. Même si la séquence du programme apparaît sur l'écran, il est aléatoire et imprévisible, tous ces programmes ont été en mémoire, de sorte que la télévision ne sera plus attrayante. La principale différence entre la surprise et la méthode fondée sur la curiosité est que Google ne cherche même pas à approcher, il peut être difficile (voire impossible) de prédire les paris futurs. En revanche, le recul de l'expérience intelligente, pour voir si elle a vu les résultats de l'observation semblable au scénario actuel. Par conséquent, l'agent de Google ne sera pas attiré par les fournisseurs de programmes de télévision de la gratification instantanée, il faut aller au-delà du programme d'exploration des scènes connues pour obtenir plus de récompenses.

Mais comment définir un agent cohérent de voir les choses avec des souvenirs de choses? recherche de correspondance exacte peut être dénuée de sens, parce que dans le monde réel, l'agent voit rarement exactement le même objet deux fois. Par exemple, même si l'agent est retourné dans la même pièce, il verra toujours la pièce sous différents angles différents de la mémoire.

Google pour mesurer l'agent deux observations par la formation du degré similaire de réseau de neurones de la profondeur, plutôt que par le biais d'une correspondance exacte sur la recherche de la mémoire. Pour former le réseau, les observations Google deux doivent deviner la corrélation temporelle, étroitement liés dans le temps, ou éloignés. proximité temporelle est de déterminer si les deux résultats devraient être les mêmes que les bonnes caractéristiques. Cette formation mène à un concept général en fonction de la disponibilité du roman (joignabilité), comme indiqué ci-dessous sur la figure.

Accessibilité Figure décider nouveauté. Dans le fonctionnement réel du modèle dans cette figure n'est pas, donc il est nécessaire de former une approche de réseau de neurones pour estimer le nombre d'étapes entre les observations.

Les résultats expérimentaux

Afin de comparer les performances des différentes méthodes de modèle de curiosité, Google en deux visuellement riche environnement 3D - et les a testés ViZDoom DMLab dans. Dans ces environnements, l'agent il y a beaucoup de tâches différentes, comme la recherche de la cible dans le labyrinthe ou bien Collect et éviter les mauvaises choses.

environnement DMLab juste donner à l'agent un des gadgets de science-fiction similaire à l'émetteur laser. Dans des études antérieures, DMLab paramètres standard pour l'équipement de l'agent dans toutes les tâches de cet outil, si un agent de tâche particulière ne ont pas besoin de cet outil, il ne peut pas. Fait intéressant, l'expérience de télévision comme le bruit décrit plus haut, les méthodes basées sur des modèles ICM curiosité dans la plupart des tâches sont en fait utilisé cet outil, même si la tâche qu'elle n'a pas aidé! Lorsque la tâche est de trouver un articles haut de retour dans le labyrinthe, l'agent semble préférer passer du temps de marquer les murs, car cela va générer beaucoup de prix « curiosité ». Théoriquement, il est possible de prédire le résultat de la marque, mais en fait, il est difficile, car il nécessite plus de connaissances de la physique, et l'agent standard existant n'a pas encore atteint cette norme.

Basé sur le marquage continu du mur pour surprendre l'expérience du renseignement ICM, plutôt que d'explorer le labyrinthe

La nouvelle méthode Google sera en mesure d'apprendre à un comportement exploratoire raisonnable dans le même environnement. En effet, il ne tente pas de prédire les résultats de leurs actions, mais plutôt de trouver ceux observés de la mémoire épisodique difficile existant à atteindre. En d'autres termes, l'agent secret poursuivant ces objectifs exigent plus d'efforts pour obtenir de la mémoire plutôt que d'une seule opération d'étiquette.

Agent Google nouvelle méthode pour démontrer un comportement exploratoire raisonnable

Fait intéressant, la méthode Google récompense punira les cercles de l'agent. Parce qu'après l'achèvement du premier tour, les nouvelles observations ont été observées en plus de la mémoire de l'agent ne sera pas frappé, et il ne sera pas une récompense:

commentaires Agent présentation visuelle: rouge pour la rétroaction négative, vert pour des commentaires positifs. La figure trois séquentiellement de gauche à droite représente: une carte et de la rétroaction de position, et la mémoire maps contenue dans une perspective à la première personne

La nouvelle approche de Google apportera un bon comportement exploratoire:

Google chercheurs espèrent que ce travail aidera à diriger la nouvelle vague de méthodes d'exploration, et au-delà des mécanismes surpris d'apprendre le comportement d'exploration plus intelligente. Analyse approfondie sur cette méthode, voir l'original papier https://arxiv.org/abs/1810.02274.

références

"Count-Based Exploration avec les modèles de densité de neurones", https://arxiv.org/abs/1703.01310, Georg Ostrovski, Marc G. Bellemare, van den Oord Aaron, Remi Munos

"#Exploration: étude du comte basée sur l'exploration pour l'apprentissage profond Renforcement", https://arxiv.org/abs/1611.04717, Haoran Tang, Rein Houthooft, Davis Foote, Adam Stooke, Xi Chen, Yan Duan, john Schulman, Filip De Turck, Pieter Abbeel

"Unsupervised Apprentissage des espaces de but pour l'exploration de but Motivé Intrinsèquement", https://arxiv.org/abs/1803.00781, Alexandre Péré, Sébastien Forestier, Olivier Sigaud, Pierre-Yves Oudeyer

"VIME: Variational Exploration d'information Optimisation", https://arxiv.org/abs/1605.09674, Rein Houthooft, Xi Chen, Yan Duan, John Schulman, Filip De Turck, Pieter Abbeel

à grande échelle études sur l'apprentissage motivée par la curiosité, https://pathak22.github.io/large-scale-curiosity/resources/largeScaleCuriosity2018.pdf, Yuri Burda, Harri Edwards, Deepak Pathak, Amos Storkey, Trevor Darrell, Alexei A. Efros

via ai.googleblog.com, AI compilateur Technology Review

Débuts de 18 ans et enfin par le « grand gars » gagner, elle sera le prochain noyau Gilbert TVB faire?
Précédent
Maintenant acheter SUV? Il jouera ont commencé lorgne le chariot
Prochain
6T comment commencer à expérimenter un plus faits saillants autorité d'évaluation des médias
Mise à jour Institut Baidu a accueilli aujourd'hui neuf scientifiques de classe mondiale
Encore une fois ECRU rafraîchir vos valeurs! 500 $ chemise comment allez-vous avec?
Qui dit qu'il n'y a pas de traitement des pneus pas cher? Les résultats des tests de pneus surpris
iOS 12.1 Pousser officiel: Peut-être le meilleur jamais iOS
Comeback, a déménagé à commercial? Fan Bingbing Pékin a ouvert un salon de beauté, carte reine 1 million! Fans: Bons avantages sociaux
Conçu pour les concepteurs de créer! version iPad de Photoshop a officiellement annoncé
Elle a remporté Miss Hong Kong, dépassant la cause est toujours la jeune génération, l'hôte de montée tout simplement désespérée les géants?
Youku ce que les jeunes hommes se développent! « Le président » a dit Vénus, « et jeune société » ne consomment pas, seule la fertilisation
rétro des années 80 peut jouer à ce jeu? Converse Fastbreak Mid Zip engouement rétro Buzz!
KDD 2018 | crowdsourcing marquage qualité inégale? Laissez la machine à travailler sur une marque de classe elle!
« La réaction armée » Marco Ngai graisse si les deux hommes, cela est la punition Sha Zhudao pour « l'homme de laitier » faire?