Cercles | vous avez besoin de nouvelles fa�ons de surmonter la curiosit� de l'apprentissage par renforcement � pour d�velopper la maladie. �

Technologie AI Revue de presse : Apprentissage par renforcement (RL) est l'une des recherche sur l'apprentissage contemporaine la plus active machine, qui r�compense lorsque l'agent fait la bonne chose, ou bien puni. Cette m�thode de � carotte et du b�ton � simple, polyvalent, et peut aider � enseigner l'algorithme DQN DeepMind jeux classiques jeux Atari et AlphaGo �checs z�ro De m�me OpenAI utilisent aussi pour enseigner RL OpenAI-Cinq algorithme de jouer aux jeux vid�o Dota , Google gr�ce � l'apprentissage par renforcement de laisser le bras de robot pour les objets d'appui . Cependant, malgr� une �tude intensive avec un certain succ�s, mais pour en faire une technique efficace, il y a encore de nombreux d�fis.

l'environnement de la r�troaction de l'agent, il est difficile d'utiliser l'algorithme standard RL, il est essentiel que la r�troaction clairsem�e est souvent le cas dans le monde r�el. Par exemple, imaginez comment un grand labyrinthe de supermarch� apprendre comment trouver votre fromage pr�f�r�. Vous avez cherch� et cherch�, mais la zone de fromage est encore nulle part. Si vous ne l'avez pas �t� � carotte � ou � b�ton � � chaque �tape du voyage, il ne peut pas d�terminer si vous �tes dans la bonne direction. En l'absence de circonstances incitations, ce qui vous emp�che d'errer dans les cercles? En plus de votre m�canisme de curiosit� avait pas le choix, la curiosit� vous poussera � entrer dans une partie du produit ne semble pas familier, vous cherchez � trouver le fromage.

La curiosit� � propos de l'article, AI Technology Review had've avait quelques-uns, par exemple sur le labyrinthe Agent " Utilisez la curiosit� d'apprendre � faire les �valuations de rares t�che � La curiosit� et la discussion du concept lui-m�me. � l'apprentissage ax�e sur la curiosit�, de sorte que l'apprentissage par renforcement plus facile ". Google a �galement propos� de mettre en uvre une nouvelle curiosit� et �crit le blog d'introduction. Texte int�gral compil� comme suit.

La curiosit� de cette nouvelle mise en uvre

Dans le document � peut �tre la situation et la mise en uvre de la curiosit� fond�e � � Curiosit� �pisodique par joignabilit� � (https://arxiv.org/abs/1810.02274), le cerveau Google, DeepMind et l'EPF de Zurich ont propos� conjointement une nouvelle m�moire �pisodique (m�moire �pisodique) mod�le bas�, ce qui peut inciter � une �tude intensive, similaire au m�canisme de curiosit� peut explorer l'environnement. Puisque nous voulons l'agent d'explorer non seulement l'environnement mais aussi pour r�soudre la t�che d'origine, donc nous r�compenserons la valeur ajout�e au mod�le original fourni dans la qu�te clairsem�e. La r�compense combin�e n'est plus clairsem�e, ce qui rend algorithme standard am�lior� peut apprendre. Par cons�quent, la nouvelle m�thode de curiosit� Google �tend le champ d'application de l'apprentissage de renforcement.

Sur la base du sc�nario curiosit� de disponibilit�: observ� est ajout� � la m�moire, la r�compense est calcul� en fonction de la distance d'observation et la m�moire de courant de la plupart des observations similaires. �tant donn� que les observations obtenues dans la m�moire n'a pas encore paru, l'agent obtiendra plus de r�compenses.

L'id�e principale est la m�thode Google agent observations sont stock�es dans l'environnement dans la m�moire �pisodique, tandis que l'agent pour obtenir la m�moire des observations est �galement aucune r�compense. � Il n'y a pas de m�moire � de cette m�thode est que la d�finition de Google de nouveaut� recherche m�moire observations aucun moyen de chercher quelque chose ne connaissent pas. Vous recherchez sc�ne �trange fait cette intelligence artificielle de dynamique pour atteindre le nouvel emplacement, l'emp�chant ainsi de l'errance et aider finalement il trouver la cible dans l'accident dans le cercle. Comme on le verra plus loin, cette approche permet � l'agent d'�viter certains des mauvais comportement des autres m�thodes sujettes - donc les chercheurs de Google ont �t� surpris que le mauvais comportement aux yeux d'un �tranger comme un � retard �.

M�thode pr�c�dente curiosit�

Bien que dans le pass� pour essayer de travailler dans les deux de nombreuses m�thodes de curiosit�, mais plus pr�occup�e par Google dans cet article est un article r�cent � Exploration motiv�e par la curiosit� par Auto- pr�vision supervis�e � (https://pathak22.github.io/noreward-rl/) explor� tr�s populaire de fa�on naturelle: bas�e sur la curiosit� surprise pr�dite (souvent appel�e en tant que module intrins�que de la curiosit�, le module intrins�que de curiosit�, ICM) . Pour illustrer la surprise la cause curiosit�, revenons � � trouver du fromage au supermarch� � exemple.

Quand vous marchez sur le march�, vous essayez de pr�dire l'avenir ( � Maintenant, je suis dans la r�gion de la viande, donc je pense qu'une partie du coin est des zones fra�ches, comme dans les cha�nes de supermarch�s dans ces zones sont g�n�ralement adjacentes �). Si votre pr�diction est fausse, vous serez surpris ( � Non, il est en fait une zone v�g�tale. Je ne pensais pas! �) Et ainsi r�compens�. Cela vous donne plus motiv� pour rechercher le coin de la rue, d'explorer un nouvel emplacement, vous attendez � voir si r�aliste (et du fromage occasionnel espoir).

(Tels que lorsque les notes donn�es surprise ou la nouveaut�) De m�me, la m�thode ICM pour �tablir un mod�le de pr�vision de la dynamique du monde, et quand le mod�le ne parvient pas � faire un bon pr�dicteur donner de r�compense agent. S'il vous pla�t noter, explorer la partie inconnue de la position de l'ICM n'appartient pas � la curiosit� du chemin. Pour ICM moyen d'y acc�der juste pour obtenir approche plus � surprise �, afin de maximiser le prix global. Il se trouve que le r�sultat de la pr�sence d'autres moyens pour surprendre, conduisant � impr�visible dans certains environnements possibles.

Bas� surpris agent de curiosit�, apr�s avoir rencontr� la t�l�vision immobile figea

� Retard � dangereux

Dans la � grande �chelle �tudes sur l'apprentissage motiv�e par la curiosit� � article, les auteurs m�thode ICM et des chercheurs OpenAI pour d�montrer une maximisation de la � surprise � danger cach�: l'agent peut apprendre � se livrer � un comportement de procrastination, au lieu de faire des choses utiles pour la t�che � accomplir. Pour discerner pourquoi, nous regardons une exp�rience de pens�e commune, les auteurs appellent � les probl�mes de bruit TV � (probl�me de la t�l�vision bruyante): un corps intelligent est plac� dans un labyrinthe et est responsable de trouver un des objets tr�s pr�cieux (semblable � notre supermarch�s cas avant l'exp�rience dans � fromage �) de. Comprenant en outre un environnement de t�l�vision, un nombre limit� de canaux (chaque canal a un programme diff�rent), l'agent a une t�l�commande de t�l�vision, l'interrupteur de commande � distance sur un canal de mani�re al�atoire � chaque fois enfonc�e, dans un tel environnement, la performance de l'agent comment faire?

Pour les d�clarations sont bas�es sur la m�thode de la curiosit� de surprise, changer le canal aura un retour �norme, parce que chaque fois qu'un changement est impr�visible et surprenant. Il est important, m�me apr�s toutes les boucles disponibles canaux, s�lection de canal al�atoire est toujours surprenant de nouveaux changements, l'agent est pr�vu apr�s un changement de canal ce qui se passe � la t�l�vision, il peut se tromper, surprendre. Il est important, m�me si l'agent avait vu chaque programme chaque canal, ce changement est toujours impr�visible. Par cons�quent, plein d'agent de curiosit� surprenante par la suite restera toujours devant la t�l�vision, plut�t que de chercher un programme tr�s utile, avec le � retard � exactement la m�me chose. Alors, comment d�finir la curiosit� ne conduira pas � un tel comportement?

sc�nario curiosit�

Dans le document � peuvent et sc�narios de mise en uvre en fonction du type de curiosit� � dans les chercheurs de Google ont explor� un sc�nario bas� sur le mod�le de m�moire de curiosit�, les r�sultats montrent que ce mod�le est pas facile de rendre le corps � produire intelligente � complaisant � instantan�e satisfaction. Pourquoi? Par exemple, tout comme la t�l�vision, la cha�ne pendant un certain temps apr�s la remise, tous les programmes stock�s dans la m�moire. M�me si la s�quence du programme appara�t sur l'�cran, il est al�atoire et impr�visible, tous ces programmes ont �t� en m�moire, de sorte que la t�l�vision ne sera plus attrayante. La principale diff�rence entre la surprise et la m�thode fond�e sur la curiosit� est que Google ne cherche m�me pas � approcher, il peut �tre difficile (voire impossible) de pr�dire les paris futurs. En revanche, le recul de l'exp�rience intelligente, pour voir si elle a vu les r�sultats de l'observation semblable au sc�nario actuel. Par cons�quent, l'agent de Google ne sera pas attir� par les fournisseurs de programmes de t�l�vision de la gratification instantan�e, il faut aller au-del� du programme d'exploration des sc�nes connues pour obtenir plus de r�compenses.

Mais comment d�finir un agent coh�rent de voir les choses avec des souvenirs de choses? recherche de correspondance exacte peut �tre d�nu�e de sens, parce que dans le monde r�el, l'agent voit rarement exactement le m�me objet deux fois. Par exemple, m�me si l'agent est retourn� dans la m�me pi�ce, il verra toujours la pi�ce sous diff�rents angles diff�rents de la m�moire.

Google pour mesurer l'agent deux observations par la formation du degr� similaire de r�seau de neurones de la profondeur, plut�t que par le biais d'une correspondance exacte sur la recherche de la m�moire. Pour former le r�seau, les observations Google deux doivent deviner la corr�lation temporelle, �troitement li�s dans le temps, ou �loign�s. proximit� temporelle est de d�terminer si les deux r�sultats devraient �tre les m�mes que les bonnes caract�ristiques. Cette formation m�ne � un concept g�n�ral en fonction de la disponibilit� du roman (joignabilit�), comme indiqu� ci-dessous sur la figure.

Accessibilit� Figure d�cider nouveaut�. Dans le fonctionnement r�el du mod�le dans cette figure n'est pas, donc il est n�cessaire de former une approche de r�seau de neurones pour estimer le nombre d'�tapes entre les observations.

Les r�sultats exp�rimentaux

Afin de comparer les performances des diff�rentes m�thodes de mod�le de curiosit�, Google en deux visuellement riche environnement 3D - et les a test�s ViZDoom DMLab dans. Dans ces environnements, l'agent il y a beaucoup de t�ches diff�rentes, comme la recherche de la cible dans le labyrinthe ou bien Collect et �viter les mauvaises choses.

environnement DMLab juste donner � l'agent un des gadgets de science-fiction similaire � l'�metteur laser. Dans des �tudes ant�rieures, DMLab param�tres standard pour l'�quipement de l'agent dans toutes les t�ches de cet outil, si un agent de t�che particuli�re ne ont pas besoin de cet outil, il ne peut pas. Fait int�ressant, l'exp�rience de t�l�vision comme le bruit d�crit plus haut, les m�thodes bas�es sur des mod�les ICM curiosit� dans la plupart des t�ches sont en fait utilis� cet outil, m�me si la t�che qu'elle n'a pas aid�! Lorsque la t�che est de trouver un articles haut de retour dans le labyrinthe, l'agent semble pr�f�rer passer du temps de marquer les murs, car cela va g�n�rer beaucoup de prix � curiosit� �. Th�oriquement, il est possible de pr�dire le r�sultat de la marque, mais en fait, il est difficile, car il n�cessite plus de connaissances de la physique, et l'agent standard existant n'a pas encore atteint cette norme.

Bas� sur le marquage continu du mur pour surprendre l'exp�rience du renseignement ICM, plut�t que d'explorer le labyrinthe

La nouvelle m�thode Google sera en mesure d'apprendre � un comportement exploratoire raisonnable dans le m�me environnement. En effet, il ne tente pas de pr�dire les r�sultats de leurs actions, mais plut�t de trouver ceux observ�s de la m�moire �pisodique difficile existant � atteindre. En d'autres termes, l'agent secret poursuivant ces objectifs exigent plus d'efforts pour obtenir de la m�moire plut�t que d'une seule op�ration d'�tiquette.

Agent Google nouvelle m�thode pour d�montrer un comportement exploratoire raisonnable

Fait int�ressant, la m�thode Google r�compense punira les cercles de l'agent. Parce qu'apr�s l'ach�vement du premier tour, les nouvelles observations ont �t� observ�es en plus de la m�moire de l'agent ne sera pas frapp�, et il ne sera pas une r�compense:

commentaires Agent pr�sentation visuelle: rouge pour la r�troaction n�gative, vert pour des commentaires positifs. La figure trois s�quentiellement de gauche � droite repr�sente: une carte et de la r�troaction de position, et la m�moire maps contenue dans une perspective � la premi�re personne

La nouvelle approche de Google apportera un bon comportement exploratoire:

Google chercheurs esp�rent que ce travail aidera � diriger la nouvelle vague de m�thodes d'exploration, et au-del� des m�canismes surpris d'apprendre le comportement d'exploration plus intelligente. Analyse approfondie sur cette m�thode, voir l'original papier https://arxiv.org/abs/1810.02274.

r�f�rences

"Count-Based Exploration avec les mod�les de densit� de neurones", https://arxiv.org/abs/1703.01310, Georg Ostrovski, Marc G. Bellemare, van den Oord Aaron, Remi Munos

"#Exploration: �tude du comte bas�e sur l'exploration pour l'apprentissage profond Renforcement", https://arxiv.org/abs/1611.04717, Haoran Tang, Rein Houthooft, Davis Foote, Adam Stooke, Xi Chen, Yan Duan, john Schulman, Filip De Turck, Pieter Abbeel

"Unsupervised Apprentissage des espaces de but pour l'exploration de but Motiv� Intrins�quement", https://arxiv.org/abs/1803.00781, Alexandre P�r�, S�bastien Forestier, Olivier Sigaud, Pierre-Yves Oudeyer

"VIME: Variational Exploration d'information Optimisation", https://arxiv.org/abs/1605.09674, Rein Houthooft, Xi Chen, Yan Duan, John Schulman, Filip De Turck, Pieter Abbeel

� grande �chelle �tudes sur l'apprentissage motiv�e par la curiosit�, https://pathak22.github.io/large-scale-curiosity/resources/largeScaleCuriosity2018.pdf, Yuri Burda, Harri Edwards, Deepak Pathak, Amos Storkey, Trevor Darrell, Alexei A. Efros

via ai.googleblog.com, AI compilateur Technology Review