Dynamique | renforcement apprentissage en profondeur les nouvelles tendances: Google curiosité comment l'introduction de l'agent d'apprentissage de renforcement

Technologie AI Revue de presse Explorer - pour exploiter la spécification de puissance est l'un de l'algorithme d'apprentissage de renforcement. Comment équilibrer l'agent devrait explorer l'étendue de l'environnement et comment effectuer certaines opérations et l'évaluation de la récompense? Dans le cadre de l'apprentissage de renforcement, l'exploration et le développement sont considérés comme des forces opposées à la suppression du modèle de récompense de curiosité. Cependant, comme la cognition humaine en tant qu'agent d'apprentissage de renforcement de la curiosité produite dans les connaissances, nous ne punissons pas comment excité la curiosité de l'agent de cas faire? Ce fait l'objet d'un document de recherche de Google Research article présente a récemment publié une méthode pour stimuler l'apprentissage de curiosité dans le renforcement corps intelligent.

La plupart des algorithmes d'apprentissage de renforcement sont structurés modèle de récompense, le modèle suppose qu'il existe un ensemble dense de récompenses peut être associée avec le comportement de l'agent. Cependant, de nombreux environnements du monde réel sont basées sur des incitations rares, ces incitations ne sont pas faciles à adapter au mécanisme d'apprentissage de renforcement. Compte tenu des besoins d'agent d'apprentissage de renforcement pour trouver un livre en particulier dans une scène de l'environnement bibliothèque. L'agent peut continuer la recherche, mais les livres Introuvable, et pas d'incitations claires pour le comportement spécifique. Sparse environnement de récompense pour l'agent d'apprentissage de renforcement est très difficile, parce qu'ils ont en l'absence d'incitations claires continuent d'explorer l'environnement. Dans ces environnements, l'agent d'apprentissage par renforcement de la « curiosité » est essentielle pour obtenir la fonction de rémunération appropriée. En d'autres termes, il existe une relation directe entre la récompense à renforcer la parcimonie de curiosité et d'apprentissage.

retard de curiosité

La curiosité est un domaine de recherche actif pour renforcer l'apprentissage. La plupart de formule apprentissage par renforcement de la curiosité est conçu pour maximiser la « surprise » ou ne peut pas prédire l'avenir. Cette approche a été inspirée par la curiosité des neurosciences théoriques, mais a été modèle éprouvé dans l'apprentissage de renforcement est relativement inefficace. La raison principale pour l'inefficacité est sans rapport avec de maximiser les objectifs et les tâches ne sont pas directement liés à la curiosité, ce qui provoque des retards. Permettez-moi de vous expliquer le fait que ce gênant?

Prenons par exemple un environnement, dans cet environnement, l'agent d'apprentissage de renforcement est placé dans un labyrinthe en trois dimensions. Il y a un labyrinthe de but précieux, il donnera une grande récompense. Maintenant, l'agent a reçu une commande de la télécommande du téléviseur, et vous pouvez changer de chaîne. Chaque canal affiche une image aléatoire (choisi parmi un ensemble d'images fixes). surprise, d'optimisation de la formule de curiosité sera heureux, parce que les résultats de commutation de canal est imprévisible. Agent restera toujours devant la télévision, plutôt que d'essayer de résoudre les objectifs et les tâches.

Ce dilemme est évident: modèle d'apprentissage de renforcement doit être utilisé afin de maximiser leur curiosité dans le cas en faveur de l'objectif ultime. Cependant, comment pouvons-nous savoir quelles étapes exploratoires liées aux objectifs, les tâches et qui ne sont pas pertinentes. Google pour répondre à ce défi en proposant une méthode appelée Épisodique La curiosité de.

situation curieuse

l'apprentissage de renforcement Google dans le domaine de l'innovation est de résoudre la curiosité en introduisant le concept d'effort - la friction entre les retards. En substance, la méthode de la mémoire épisodique est une méthode ne nécessite que peu d'effort pour obtenir des données d'observation pour donner des incitations, il est recommandé d'éviter les « actes d'auto-indulgence. » Selon notre exemple labyrinthe TV (labyrinthe TV), après le changement de chaîne, tous les programmes finiront éventuellement en mémoire. Par conséquent, le programme TV n'aura aucune attraction, apparaît à l'écran parce que la séquence du programme est aléatoire et imprévisible, tous ces programmes sont déjà dans le magasin! Un agent de stockage vérifiera la situation dans le passé, pour vous assurer qu'il voyez-vous les observations actuelles semblables, dans ce cas, il ne sera pas une récompense. Après la diffusion à plusieurs reprises sur plusieurs temps de télévision, l'agent de stockage de scénario ne sera pas attiré par la gratification instantanée, mais doivent explorer le monde en dehors de la télévision pour obtenir un bonus. Est-ce son ah intelligent?

Procédé de la mémoire épisodique de l'élaboration de la curiosité et lié. Agent à un début de stockage vide, chaque étape sera de comparer les observations actuelles au début de la série et de stocker des observations, afin de déterminer sa nouveauté. Si l'observation actuelle est en effet nouvelle - alors l'étape tirée de l'observation se souvient plus que le seuil - alors l'agent vous récompensera, et ajoutez le magasin de scène observée en cours. Ce processus se poursuit jusqu'à la fin de l'épisode, lorsque le stockage sera effacé.

Une scène de curiosité architecture réseau de neurones

Afin d'atteindre l'agent mémoire de scénario d'apprentissage par renforcement, Google repose sur une architecture qui combine deux réseaux de neurones et un tampon de mémoire épisodique et le module d'estimation de récompense, comme indiqué ci-dessous:

Le regard de déposons sur les différentes composantes de l'architecture de la mémoire épisodique:

  • Embedding et réseau de comparaison: ces deux réseaux est de prédire l'accessibilité de certains visualisation à une autre observation donnée d'entrée. Plus précisément, les deux réseaux sont appelés réseau R-basé sur une architecture, qui est une perte de rendement de la formation du classificateur par la logique: Si les étapes k observées une à deux probabilités supplémentaires qu'une comparaison jusqu'à est faible, alors la valeur prédite proche de 0, alors que, lorsque la probabilité est très élevée, sa valeur est proche de 1.

  • Scénario mémoire tampon: mémoire tampon intégrée Scénario stocke les observations actuelles des scénarios du passé, afin d'évaluer les résultats en fonction de l'observation particulière.

  • module d'estimation Récompense: Le but de ce module est d'observer s'il y a des résultats qui peuvent être obtenus mémoire contrôles, sinon, à vérifier. En substance, seule en prenant un certain nombre d'actions de l'état actuel, vérifiez ce module est de veiller à ce qu'aucune observation peut être atteint en mémoire, et encourage donc la curiosité.

La mémoire épisodique en action

Google testé dans une série d'environnements visuels (tels que ViZDoom et DMLab) dans le modèle d'apprentissage de renforcement de la mémoire épisodique, les résultats sont très bons. Dans ces environnements, la tâche de l'agent est de traiter de diverses questions, telles que la cible de recherche dans le labyrinthe ou Collect bon contenu et d'éviter les mauvais objets. environnement DMLab arrive à fournir une chose science-fiction comme laser en tant qu'agent. Avant de travailler sur l'établissement de normes en DMLab est équipé de toutes les tâches pour les gadgets de l'agent, si l'agent n'a pas besoin gadget de tâche spécifique, vous pouvez l'utiliser gratuitement. récompense Parcimonie rend ces environnements pour la plupart méthode d'apprentissage de renforcement conventionnel est très difficile. Lorsque la recherche est responsable des projets à rendement élevé dans le labyrinthe, il préfère passer du temps de marquer les murs, parce que cela créerait beaucoup de bonus « surprise ».

Dans le même environnement, agent de la mémoire épisodique peut naviguer efficacement à travers le labyrinthe, la façon dont il est utilisé - par l'effort de curiosité pour maximiser les récompenses.

Les spectacles d'animation suivants, proxy mémoire épisodique comment encourager des incitations positives (vert) plutôt que la récompense (rouge), tout en maintenant l'emplacement de mémoire tampon pour explorer le (bleu).

méthode de la mémoire épisodique est l'un des moyens les plus créatifs que j'ai vu, peut encourager la curiosité d'apprendre à renforcer l'agent. Avec l'apprentissage de renforcement est de plus en plus courant dans les systèmes d'IA, tels que la méthode de la mémoire épisodique devrait devenir une partie importante de l'architecture.

Cliquez sur Lire l'original , Rejoindre des groupes de discussion CVPR il ~

6000000 célébration devenir propriétaires de « mensonge heureux grand » FAW Toyota « pour ouvrir une nouvelle relation client
Précédent
Millet, est le prix que vous boucher il?
Prochain
Un « roi têtu » atteint 120 millions d'utilisateurs de jeu deviennent progressivement les évaluations des utilisateurs grand public
Alors que le processus d'entretien minutieux Lifan Xuan Une longue expérience
La deuxième génération CX-5 re-liste de louange, peut renverser la situation ont été loué Mazda SUV?
Le voleur sur un tournevis, les auteurs de plus de 50 pièces! N'épargnant même le chocolat
nouveau XC60 Plus d'info intérieure: Appuyez trois types de puissance / 8 modèles
Voir | tough guy! Un groupe de plus grande HD vous permet d'écouter la formation de la police armée Chongqing gens « diable Semaine »
Lisez le texte cent milliards de capitalisation boursière Ma sommet pour aider le plus riche homme de l'Asie, la lecture paume deux fondateurs de la valeur nette plus de 7 milliards
lumineux Dayan perspectives de reproduction
Pauvre bébé est né deux et voir maman quelques jours, et il est maintenant jeté dans le grand-père Bureau des affaires civiles
Ceci est un vrai jeu artefact de divertissement, Huawei profiter 9 Plus examen
antique Balenciaga nouveau à nouveau très complexe? ! 2018SS LOOKBOOK simplement la peinture sur!
Acheter Yang Mi « propagation vers le haut, » Zhao Liying « savent pas », pourquoi la vidéo Tencent à pas pour le Joey Song?