Agent Daydream, Google est sorti du texte PR du cerveau?

L'agent peut apprendre dans un r�ve? Oui!

R�verie est sp�cifique � l'humain? Non!

Tel est le Google du cerveau et un article PR? Difficile � dire ~

Lei Feng r�seau par AI Technology Review: Apr�s il y a quelque temps affich� � Big One Net � sur arXiv, r�cemment Jurgen Schmidhuber et David Ha de cerveau Google et mettre un grand titre de papier: mod�le mondial (mod�les du monde). Mais le dernier son et la critique coh�rente, presque tout le monde cette fois-ci accepte que le contenu est la louange. Par exemple, sur la voix de tout le monde Reddit semblable � ceci:

Ce travail semble tr�s int�ressant. Mais s�rieusement quelque chose de bien, ne se livre pas � ce genre de titre UC? Vraiment peur de demain, les m�dias expos�s un � Google a fait tout un monde peut simuler l'IA �. (Note: Le premier auteur est David Ha de Google cerveau de)

Ou a ceci:

Je pense que ce titre semble tr�s simple, description tr�s pr�cise. Si les journalistes ne doivent pas mettre de c�t� le titre � monde � est le mot, alors c'est certainement un article trompeur.

Donc, � la fin ce que cet article parle � ce sujet? Est-ce simplement: construire un agent mod�le mondial interne, il peut �tre auto-apprentissage (l'image de celui-ci est la capacit� d'apprendre en r�vant) dans leur propre int�rieur du monde int�rieur sans apport ext�rieur.

Je dois dire que, c'est un cas d'imitation d'apprentissage humain. Nous, les humains bas�s sur leurs sens (la vue, l'ou�e, l'odorat, etc.), dans leur esprit pour construire un mod�le mental du monde, ce monde est la base sur laquelle nous faisons des jugements et des d�cisions. Au r�veil, nous entrons par le syst�me visuel, auditif et d'autres informations sensorielles en permanence, et sur la base de notre mod�le mental du monde � prendre des d�cisions et des actions, pendant le sommeil, nous avons ferm� le syst�me sensoriel, mais nous sommes encore en mesure de un r�ve � d'apprendre �.

Afin de traiter les flux de la vie quotidienne � travers nous beaucoup d'informations, nos cerveaux spatiales et dimensions temporelles de ces informations repr�sentation abstraite. Nous pouvons regarder une sc�ne et souvenez-vous des descriptions abstraites d'entre eux. D'autre part, � tout moment nous aper��mes fait par nos mod�les mentaux internes du cerveau pour pr�dire l'avenir d�cid�.

Alors, comment comprendre le mod�le pr�dictif de notre cerveau do? En fait, il est non seulement de pr�dire l'avenir, mais �tant donn� le mouvement actuel d'aller � pr�dire le comportement futur des donn�es de sens. Quand nous sommes en danger, nous sommes en mesure de prendre instinctivement ce mod�le de pr�diction et le comportement r�flexe rapide, sans la n�cessit� de d�velopper consciemment un plan d'action.

Base-ball, par exemple. Un cogneur de base-ball seulement quelques millisecondes pour d�cider comment ils doivent balancer la chauve-souris, cette fois-ci, en fait, notre cerveau exigent encore plus courte que le signal oeil visuel arrive, la raison peut frappeurs frapper la balle, nous la balle peut pr�dire instinctivement � quelle heure � quelle place. Pour les joueurs professionnels, tout cela est arriv� dans le subconscient, leurs muscles au moment et au bon endroit selon les r�sultats de leur mod�le mental interne pr�dit balancer la chauve-souris. Tout cela n'a pas besoin d'�tre une planification consciente.

Pour cette caract�ristique de la cognition humaine, en fait, tr�s t�t (� partir de 1995 et 2015) certaines personnes essaient de construire un mod�le similaire. La signification de cela est qu'il utilise un cadre simplifi�, les exp�riences d�montrent certains des concepts cl�s de ces �tudes, nous proposons de nouvelles id�es d'am�lioration, et appliqu�e efficacement pour am�liorer l'environnement d'apprentissage.

En parlant de l'apprentissage par renforcement, les algorithmes RL sont souvent soumis � des probl�mes d'affectation de goulot d'�tranglement du cr�dit, et donc difficile � apprendre les algorithmes traditionnels RL millions de poids r�seau de neurones � grande �chelle. Par cons�quent, dans la pratique, pour acc�l�rer l'it�ration d'une bonne strat�gie au cours de la formation, sont normalement utilis�s pour les petits r�seaux.

Dans ce travail, l'auteur met l'accent sur la formation d'un r�seau de neurones pour traiter la RL grande t�che, l'agent est divis� en grand et petit mod�le de contr�leur de mod�le mondial. L'auteur premi�re mani�re non supervis�e de former de grands r�seaux de neurones, ce qui en fait un mod�le mondial d'apprentissage d'agent, et le recyclage mod�le de contr�leur plus petit, laissez apprendre � effectuer des t�ches � l'aide du mod�le pr�c�dent du monde. Une telle approche assure que le mod�le de commande de l'algorithme de formation peut se concentrer sur l'allocation de cr�dit sur un petit espace de recherche, sans pour autant sacrifier la capacit� et la performance d'un mod�le plus grand du monde par la force. De plus, ce mod�le du b�timent peut m�me enti�rement dans son propre mod�le mondial produit � r�ve � agent de formation, et l'effet d'entra�nement retransf�r� au monde r�el. structure du mod�le agent suit comme:

Dans le d�tail, la s�lection du mod�le visuel variationnelle de codage automatique (VAE):

Quels m�moire s�lectionn�e RNN RNN r�seau de densit� de m�lange de liaison (MDN-RNN):

SketchRNN est un exemple de-RNN MDN, qui peut pr�dire les croquis de la course suivante. Les auteurs ont utilis� un mod�le similaire est utilis� pour pr�dire un vecteur suivant cach� z.

mod�le contr�leur (C) charg� de d�terminer le cours de l'action � prendre afin de maximiser le rendement attendu de l'agent dans l'environnement. Dans l'exp�rience de choisir d�lib�r�ment la plus simple C:

Dans laquelle m et b sont la matrice de poids et le vecteur de d�calage. La combinaison ci-dessus de ces trois mod�les ensemble est le cas:

exp�rience de course

Les auteurs premier test pour d�tecter la voiture avec ce mod�le. processus d'exp�rience est la suivante:

1. collect�es � partir d'une politique al�atoire 10000 Out (Rollouts);
2. Formation VAE (V) de l'image vid�o cod�e implicite 32 dimensions vecteur z;
3. Formation MDN-RNN (M) la mod�lisation de la distribution de probabilit� P (z_ {t + 1} | a_t, z_t, h_t);
4. D�finir le contr�leur (C) est a_t = W_c �+ B_c;
5. Utilisez les CMA-ES et la r�solution W_c pour maximiser le b_c jackpot pr�vu.

Dans ce jeu de course, agent de contr�le peut faire trois actions: tourner � gauche / droite, l'acc�l�ration et le freinage. Les r�sultats sont les suivants:

Si le mod�le ne visuelle (V) -

Si les deux mod�le visuel (V) et la m�moire de mod�le (M) -

Dans 100 tests, le score moyen du mod�le �tait significativement plus �lev� que certains du mod�le pr�c�dent.

Bien s�r, plus que cela. Parce que le monde du mod�le futur peut �tre mod�lis� (c.-�, compte tenu de l'�tat actuel, il peut �tre un moment de distributions de probabilit� g�n�r�es), donc si cette observation que la valeur r�elle, ce qui signifie que l'agent peut poss�der � illusion � une sc�ne de course imaginaire, et l'apprentissage dans cette illusion.

Puis appris dans une exp�rience de r�ve, la possibilit� de le transf�rer � l'environnement r�el? Nous devons examiner une exp�rience.

exp�rience VizDoom

Dans ce jeu, le monstre et l'autre extr�mit� de la salle tirerai boules de feu, l'agent que vous voulez apprendre est comment �viter ces boules de feu pour �viter d'�tre tu�.

Comme une exp�rience tout et les courses processus exp�rimental VizDoom, mais il y a quelques diff�rences. Tout d'abord V en plus le d�but de codage vid�o en dehors de certains pendant toute la � fantaisie �, le monde ext�rieur est plus vrai de codage des images vid�o, mais la prochaine fois sera transform� fonction vecteur M pr�dite pour l'image visible. D'autre part, M, non seulement pour pr�dire l'instant de vecteurs de caract�ristiques, mais aussi dans l'anticipation agent de l'Etat mort / vivant. processus d'exp�rience est la suivante:

Accumul�s � partir d'une politique al�atoire 10000 Out (Rollouts);

Formation de VAE (V) de l'image vid�o cod�e 64 en tant que vecteur de dimension implicite z; en m�me temps, en V (1) montrant images collect�es dans un espace de caract�ristique;

Formation MDN-RNN (M) la mod�lisation de la distribution de probabilit� P (z_ {t + 1}, done_ {t + 1} | a_t, z_t, h_t), dans lequel done_ {t + 1} indique l'�tat mort / inactif de l'agent;

contr�leur d�fini (C) est a_t = W_c ;

Utilisez la r�solution W_c et CMA-ES b_c pour maximiser le temps de survie pr�vu dans un environnement virtuel;

effet des strat�gies de (5) a appris � l'environnement dans le monde r�el.

Il convient de souligner que, ici, l'agent en plus des donn�es d'image brutes collect�es, ne pas rien, ils apprendront comment simuler les r�gles de base du jeu dans leurs propres r�ves, tels que des jeux de logique, le comportement de l'ennemi, les caract�ristiques physiques et ainsi de suite. Par exemple, si l'agent est trop loin vers la gauche pour se d�placer dans leur propre imaginaire hors du jeu, il doit apprendre � s'emp�cher de se d�placer des deux c�t�s du mur.

Illusion et le jeu r�el est diff�rent, il y a beaucoup d'incertitudes dans l'illusion, par exemple, vous pouvez voir une boule de feu se d�pla�ant le long d'un chemin au hasard, ou l'agent mort en quelque sorte, ne pouvait pas expliquer pourquoi. Ici, il est la formation dans un r�ve un meilleur r�sultat:

Cet agent dans le r�ve appliqu� � l'environnement r�el de jeu, nous avons constat� que m�me la magie du bien, dans un test al�atoire 100, le frame rate moyen de survie de 1100, beaucoup plus de 750 victoires exigences.

Cependant, les auteurs ont �galement constat� que, dans l'exp�rience d'un bug. Nous savons que quand nous �tions jeunes qui SAIT objets jet�s tomberont, nous serons encore peu r�aliste d'imaginer certains super-h�ros peut voler dans l'air, parce que nous avons le plein contr�le de notre monde mental, nous sommes libres de cr�er tout ce que nous voulons.

De m�me, dans ce mod�le, car le contr�leur peut acc�der � toutes les M cach�, qui accordant essentiellement la permission d'acc�der � tous l'�tat interne de l'agent, de sorte qu'il peut �tre manipul� directement pour atteindre ces incitations cach�es pour maximiser souhait�es. Par exemple, dans le r�ve de l'apprentissage, ces monstres virtuels ne seront pas lancer une boule de feu, donc peu importe la fa�on dont le mouvement du corps intelligent obtenir un score �lev�. Cependant, lorsque les r�sultats de ces exercices pour obtenir vrai test de l'environnement se trouve que l'agent est bient�t mort. Ceci est similaire � r�vasser plus, dans la vie r�elle, il ne r�ussira pas.

programme de formation it�ratives

Dans les exp�riences ci-dessus, la t�che est relativement simple, vous pouvez utiliser un ensemble al�atoire de strat�gies pour Collect monde en train de mod�le de donn�es. Mais si l'environnement est plus complexe, comment faire? Dans ce cas, l'agent ne peut voir une partie du monde. Nous avons donc besoin de plus d'it�rations, qui permettent � notre agent d'explorer le monde et continuer � rassembler de nouvelles observations, afin que le monde peut changer et d'affiner leur mod�le au fil du temps. Le fonctionnement est le suivant:

mod�le d'initialisation de param�tre al�atoire M, C;

Explorez les temps monde N, l'agent d'apprentissage dans chaque exploration, et tous les actes et les observations X_T a_t enregistr�es dans la m�moire;

M mod�le de formation P (x_ {t + 1}, {r_ t + 1}, {a_ t + 1}, {done_ t + 1} | x_t, a_t, h_t);

Si la t�che n'est pas termin�e, retournez � (2).

Les exp�riences ci-dessus montrent que pour des t�ches simples premier cycle d'it�ration est suffisante. Pour le mandat peut n�cessiter plusieurs it�rations. Voici une direction de recherche passionnant est de savoir comment rejoindre la curiosit� de l'agent et la motivation intrins�que � faire davantage pour explorer son dividende.

discuter

Le processus ci-dessus a valid� la possibilit� de la formation dans un espace de r�ve de l'agent virtuel enti�rement. L'avantage de cette m�thode est de soi. Par exemple, le moteur de jeu de calcul intensif, peut n�cessiter beaucoup de ressources informatiques pour rendre une trame d'image du jeu, ou qui ne sont pas li�s au contenu du jeu lui-m�me, ce qui a grandement des ressources informatiques gaspill�e, mais augmente �galement la formation du cycle de formation des agents et vous pouvez utiliser moins de ressources dans un environnement de r�ve, des p�riodes de formation plus courts pour obtenir des r�sultats similaires.

De plus, nous pouvons utiliser le cadre de l'apprentissage en profondeur pour construire ce mod�le du monde, nous allons concevoir le mod�le au monde de l'informatique polyvalence d'une carte compl�te peut �tre distingu�e, l'avantage est que nous pouvons utiliser directement l'algorithme de r�tropropagation pour former notre intelligence corps, affiner la fonction politique pour maximiser la cible.

Mod�le lui-m�me, il doit �tre am�lior�. Par exemple VAE V utilis� dans le mod�le, qui �tait en fait form� comme un mod�le autonome a ses propres limites, car il pourrait faire partie sans lien de la t�che ont �galement �t� cod�es, apr�s tout, l'apprentissage non supervis� ne sais pas ce qu'il est utile pour la t�che. Par exemple, l'environnement dans lequel reproduit mosa�que de motif de flanc de d�tail sans importance Doom, dans des environnements de course, il ne se reproduit pas des blocs associ�s � la t�che. V en train avec M, VAE peut �tre plus concentr� sur la t�che des domaines li�s � l'image. Mais l'inconv�nient est que nous ne pouvons pas �tre en mesure de mani�re efficace la r�utilisation sans la n�cessit� d'une nouvelle t�che � nouveau VAE.

L'apprentissage des fonctions de travail li�es aux neurosciences ont une grande importance, les neurones sensoriels primaires lors de la r�ception des prix, sorti de l'�tat d'inhibition, ce qui indique qu'ils sont g�n�ralement associ�s � la t�che des caract�ristiques d'apprentissage � l'�ge adulte moins, pas caract�ristique . travaux futurs de la t�che peut �tre d'explorer les moyens d'am�liorer encore le mod�le V de se concentrer sur les t�ches des fonctions li�es.

Un autre probl�me plus grave possible est la capacit� limit�e du mod�le mondial. Bien que le p�riph�rique de stockage moderne peut stocker une grande quantit� de donn�es historiques au moyen d'un processus de formation it�rative g�n�r�, mais le monde ne peut pas �tre bas� sur le mod�le LSTM toutes les informations enregistr�es sont stock�es en rapport � son poids. Le cerveau humain peut durer des d�cennies de souvenirs, mais le r�seau de neurones r�tropropagation form� une capacit� limit�e en termes de m�moire, souvent question oubli�e catastrophique. Si vous voulez que l'agent d'apprendre � explorer un monde plus complexe, les auteurs estiment que les travaux futurs pourraient explorer la fa�on d'utiliser le mod�le de plus grande capacit� de remplacer la plus petite capacit� r�seau-RNN MDN ou fusionner des modules de stockage externes.

Commentaire sur cet article

Sur Reddit semble ne manque jamais � dans le domaine de la personne �, ils sont souvent en mesure de donner une �valuation correcte du travail. Lei r�seau exemple d�couverte du r�seau Feng appel� sieisteinmodel �valu� comme suit:

Je voudrais exprimer une plus large (mais subjectif bien s�r) point de vue. Mais le sens de cet article est de v�rifier J�rgen ancienne vue de moderne (apr�s 2005) de la machine: inf�rence variationnelle, MD-RNNs, l'environnement de prise de vue 3D.

L'apprentissage d'un mod�le, puis un contr�le, cette approche a effectivement �t� une longue p�riode de temps. J�rgen et d'autres ont plaid� pour des d�cennies raisons � cela, et c'est cet article appara�t:

Ce mod�le a son propre nom, on l'appelle � l'apprentissage de renforcement bas� sur un mod�le �;
Il a ses propres sous-domaines tels que la recherche de la politique;
Il est bien �tabli que l'�tude aura comme un outil, non seulement comme un contenu de recherche;
Il a �t� tr�s mature, il a d�j� �t� mis en uvre dans le mat�riel, et pas seulement la simulation;
Il est tout � fait comp�titif en termes de l'efficacit� de l'�chantillon;
Eric Horvitz Dans son discours avait utilis� un principe plus large.

Donc, si vous �tes enthousiasm�s par cet article, vous pouvez �galement consulter les travaux ant�rieurs dans ce domaine. J�rgen vieux papiers, et Marc Peter Deisenroth enqu�te de recherche sur les politiques de la technologie des robots est un bon point d'entr�e. En outre, vous devriez �galement consid�rer la recherche de contr�le optimale, c'est une branche tr�s ancienne de la th�orie de contr�le, ce qui, en plus de mod�le d'apprentissage, l'id�e de base a d�j� �t� mis au point.

A propos du titre, je pense qu'il est pas n�cessaire de ce mod�le est appel� le � mod�le du monde �, si tel est le cas, il applique �galement � toutes les �tudes pr�c�dentes. Mais les gens maintenant PR jouent le jeu, ce n'est pas leur faute.

via worldmodels.github.io, Lei Feng r�seau compil� AI Technology Review.