Dynamique | renforcement apprentissage en profondeur les nouvelles tendances: Google curiosit� comment l'introduction de l'agent d'apprentissage de renforcement

Technologie AI Revue de presse Explorer - pour exploiter la sp�cification de puissance est l'un de l'algorithme d'apprentissage de renforcement. Comment �quilibrer l'agent devrait explorer l'�tendue de l'environnement et comment effectuer certaines op�rations et l'�valuation de la r�compense? Dans le cadre de l'apprentissage de renforcement, l'exploration et le d�veloppement sont consid�r�s comme des forces oppos�es � la suppression du mod�le de r�compense de curiosit�. Cependant, comme la cognition humaine en tant qu'agent d'apprentissage de renforcement de la curiosit� produite dans les connaissances, nous ne punissons pas comment excit� la curiosit� de l'agent de cas faire? Ce fait l'objet d'un document de recherche de Google Research article pr�sente a r�cemment publi� une m�thode pour stimuler l'apprentissage de curiosit� dans le renforcement corps intelligent.

La plupart des algorithmes d'apprentissage de renforcement sont structur�s mod�le de r�compense, le mod�le suppose qu'il existe un ensemble dense de r�compenses peut �tre associ�e avec le comportement de l'agent. Cependant, de nombreux environnements du monde r�el sont bas�es sur des incitations rares, ces incitations ne sont pas faciles � adapter au m�canisme d'apprentissage de renforcement. Compte tenu des besoins d'agent d'apprentissage de renforcement pour trouver un livre en particulier dans une sc�ne de l'environnement biblioth�que. L'agent peut continuer la recherche, mais les livres Introuvable, et pas d'incitations claires pour le comportement sp�cifique. Sparse environnement de r�compense pour l'agent d'apprentissage de renforcement est tr�s difficile, parce qu'ils ont en l'absence d'incitations claires continuent d'explorer l'environnement. Dans ces environnements, l'agent d'apprentissage par renforcement de la � curiosit� � est essentielle pour obtenir la fonction de r�mun�ration appropri�e. En d'autres termes, il existe une relation directe entre la r�compense � renforcer la parcimonie de curiosit� et d'apprentissage.

retard de curiosit�

La curiosit� est un domaine de recherche actif pour renforcer l'apprentissage. La plupart de formule apprentissage par renforcement de la curiosit� est con�u pour maximiser la � surprise � ou ne peut pas pr�dire l'avenir. Cette approche a �t� inspir�e par la curiosit� des neurosciences th�oriques, mais a �t� mod�le �prouv� dans l'apprentissage de renforcement est relativement inefficace. La raison principale pour l'inefficacit� est sans rapport avec de maximiser les objectifs et les t�ches ne sont pas directement li�s � la curiosit�, ce qui provoque des retards. Permettez-moi de vous expliquer le fait que ce g�nant?

Prenons par exemple un environnement, dans cet environnement, l'agent d'apprentissage de renforcement est plac� dans un labyrinthe en trois dimensions. Il y a un labyrinthe de but pr�cieux, il donnera une grande r�compense. Maintenant, l'agent a re�u une commande de la t�l�commande du t�l�viseur, et vous pouvez changer de cha�ne. Chaque canal affiche une image al�atoire (choisi parmi un ensemble d'images fixes). surprise, d'optimisation de la formule de curiosit� sera heureux, parce que les r�sultats de commutation de canal est impr�visible. Agent restera toujours devant la t�l�vision, plut�t que d'essayer de r�soudre les objectifs et les t�ches.

Ce dilemme est �vident: mod�le d'apprentissage de renforcement doit �tre utilis� afin de maximiser leur curiosit� dans le cas en faveur de l'objectif ultime. Cependant, comment pouvons-nous savoir quelles �tapes exploratoires li�es aux objectifs, les t�ches et qui ne sont pas pertinentes. Google pour r�pondre � ce d�fi en proposant une m�thode appel�e �pisodique La curiosit� de.

situation curieuse

l'apprentissage de renforcement Google dans le domaine de l'innovation est de r�soudre la curiosit� en introduisant le concept d'effort - la friction entre les retards. En substance, la m�thode de la m�moire �pisodique est une m�thode ne n�cessite que peu d'effort pour obtenir des donn�es d'observation pour donner des incitations, il est recommand� d'�viter les � actes d'auto-indulgence. � Selon notre exemple labyrinthe TV (labyrinthe TV), apr�s le changement de cha�ne, tous les programmes finiront �ventuellement en m�moire. Par cons�quent, le programme TV n'aura aucune attraction, appara�t � l'�cran parce que la s�quence du programme est al�atoire et impr�visible, tous ces programmes sont d�j� dans le magasin! Un agent de stockage v�rifiera la situation dans le pass�, pour vous assurer qu'il voyez-vous les observations actuelles semblables, dans ce cas, il ne sera pas une r�compense. Apr�s la diffusion � plusieurs reprises sur plusieurs temps de t�l�vision, l'agent de stockage de sc�nario ne sera pas attir� par la gratification instantan�e, mais doivent explorer le monde en dehors de la t�l�vision pour obtenir un bonus. Est-ce son ah intelligent?

Proc�d� de la m�moire �pisodique de l'�laboration de la curiosit� et li�. Agent � un d�but de stockage vide, chaque �tape sera de comparer les observations actuelles au d�but de la s�rie et de stocker des observations, afin de d�terminer sa nouveaut�. Si l'observation actuelle est en effet nouvelle - alors l'�tape tir�e de l'observation se souvient plus que le seuil - alors l'agent vous r�compensera, et ajoutez le magasin de sc�ne observ�e en cours. Ce processus se poursuit jusqu'� la fin de l'�pisode, lorsque le stockage sera effac�.

Une sc�ne de curiosit� architecture r�seau de neurones

Afin d'atteindre l'agent m�moire de sc�nario d'apprentissage par renforcement, Google repose sur une architecture qui combine deux r�seaux de neurones et un tampon de m�moire �pisodique et le module d'estimation de r�compense, comme indiqu� ci-dessous:

Le regard de d�posons sur les diff�rentes composantes de l'architecture de la m�moire �pisodique:

Embedding et r�seau de comparaison: ces deux r�seaux est de pr�dire l'accessibilit� de certains visualisation � une autre observation donn�e d'entr�e. Plus pr�cis�ment, les deux r�seaux sont appel�s r�seau R-bas� sur une architecture, qui est une perte de rendement de la formation du classificateur par la logique: Si les �tapes k observ�es une � deux probabilit�s suppl�mentaires qu'une comparaison jusqu'� est faible, alors la valeur pr�dite proche de 0, alors que, lorsque la probabilit� est tr�s �lev�e, sa valeur est proche de 1.
Sc�nario m�moire tampon: m�moire tampon int�gr�e Sc�nario stocke les observations actuelles des sc�narios du pass�, afin d'�valuer les r�sultats en fonction de l'observation particuli�re.
module d'estimation R�compense: Le but de ce module est d'observer s'il y a des r�sultats qui peuvent �tre obtenus m�moire contr�les, sinon, � v�rifier. En substance, seule en prenant un certain nombre d'actions de l'�tat actuel, v�rifiez ce module est de veiller � ce qu'aucune observation peut �tre atteint en m�moire, et encourage donc la curiosit�.

La m�moire �pisodique en action

Google test� dans une s�rie d'environnements visuels (tels que ViZDoom et DMLab) dans le mod�le d'apprentissage de renforcement de la m�moire �pisodique, les r�sultats sont tr�s bons. Dans ces environnements, la t�che de l'agent est de traiter de diverses questions, telles que la cible de recherche dans le labyrinthe ou Collect bon contenu et d'�viter les mauvais objets. environnement DMLab arrive � fournir une chose science-fiction comme laser en tant qu'agent. Avant de travailler sur l'�tablissement de normes en DMLab est �quip� de toutes les t�ches pour les gadgets de l'agent, si l'agent n'a pas besoin gadget de t�che sp�cifique, vous pouvez l'utiliser gratuitement. r�compense Parcimonie rend ces environnements pour la plupart m�thode d'apprentissage de renforcement conventionnel est tr�s difficile. Lorsque la recherche est responsable des projets � rendement �lev� dans le labyrinthe, il pr�f�re passer du temps de marquer les murs, parce que cela cr�erait beaucoup de bonus � surprise �.

Dans le m�me environnement, agent de la m�moire �pisodique peut naviguer efficacement � travers le labyrinthe, la fa�on dont il est utilis� - par l'effort de curiosit� pour maximiser les r�compenses.

Les spectacles d'animation suivants, proxy m�moire �pisodique comment encourager des incitations positives (vert) plut�t que la r�compense (rouge), tout en maintenant l'emplacement de m�moire tampon pour explorer le (bleu).

m�thode de la m�moire �pisodique est l'un des moyens les plus cr�atifs que j'ai vu, peut encourager la curiosit� d'apprendre � renforcer l'agent. Avec l'apprentissage de renforcement est de plus en plus courant dans les syst�mes d'IA, tels que la m�thode de la m�moire �pisodique devrait devenir une partie importante de l'architecture.

Cliquez sur Lire l'original , Rejoindre des groupes de discussion CVPR il ~

Route de la soie

Apprenez � conna�tre la Chine

Dynamique | renforcement apprentissage en profondeur les nouvelles tendances: Google curiosit� comment l'introduction de l'agent d'apprentissage de renforcement

retard de curiosit�

situation curieuse

Une sc�ne de curiosit� architecture r�seau de neurones

La m�moire �pisodique en action