Agent Daydream, Google est sorti du texte PR du cerveau?

L'agent peut apprendre dans un rêve? Oui!

Rêverie est spécifique à l'humain? Non!

Tel est le Google du cerveau et un article PR? Difficile à dire ~

Lei Feng réseau par AI Technology Review: Après il y a quelque temps affiché « Big One Net » sur arXiv, récemment Jurgen Schmidhuber et David Ha de cerveau Google et mettre un grand titre de papier: modèle mondial (modèles du monde). Mais le dernier son et la critique cohérente, presque tout le monde cette fois-ci accepte que le contenu est la louange. Par exemple, sur la voix de tout le monde Reddit semblable à ceci:

Ce travail semble très intéressant. Mais sérieusement quelque chose de bien, ne se livre pas à ce genre de titre UC? Vraiment peur de demain, les médias exposés un « Google a fait tout un monde peut simuler l'IA ». (Note: Le premier auteur est David Ha de Google cerveau de)

Ou a ceci:

Je pense que ce titre semble très simple, description très précise. Si les journalistes ne doivent pas mettre de côté le titre « monde » est le mot, alors c'est certainement un article trompeur.

Donc, à la fin ce que cet article parle à ce sujet? Est-ce simplement: construire un agent modèle mondial interne, il peut être auto-apprentissage (l'image de celui-ci est la capacité d'apprendre en rêvant) dans leur propre intérieur du monde intérieur sans apport extérieur.

Je dois dire que, c'est un cas d'imitation d'apprentissage humain. Nous, les humains basés sur leurs sens (la vue, l'ouïe, l'odorat, etc.), dans leur esprit pour construire un modèle mental du monde, ce monde est la base sur laquelle nous faisons des jugements et des décisions. Au réveil, nous entrons par le système visuel, auditif et d'autres informations sensorielles en permanence, et sur la base de notre modèle mental du monde à prendre des décisions et des actions, pendant le sommeil, nous avons fermé le système sensoriel, mais nous sommes encore en mesure de un rêve « d'apprendre ».

Afin de traiter les flux de la vie quotidienne à travers nous beaucoup d'informations, nos cerveaux spatiales et dimensions temporelles de ces informations représentation abstraite. Nous pouvons regarder une scène et souvenez-vous des descriptions abstraites d'entre eux. D'autre part, à tout moment nous aperçûmes fait par nos modèles mentaux internes du cerveau pour prédire l'avenir décidé.

Alors, comment comprendre le modèle prédictif de notre cerveau do? En fait, il est non seulement de prédire l'avenir, mais étant donné le mouvement actuel d'aller à prédire le comportement futur des données de sens. Quand nous sommes en danger, nous sommes en mesure de prendre instinctivement ce modèle de prédiction et le comportement réflexe rapide, sans la nécessité de développer consciemment un plan d'action.

Base-ball, par exemple. Un cogneur de base-ball seulement quelques millisecondes pour décider comment ils doivent balancer la chauve-souris, cette fois-ci, en fait, notre cerveau exigent encore plus courte que le signal oeil visuel arrive, la raison peut frappeurs frapper la balle, nous la balle peut prédire instinctivement à quelle heure à quelle place. Pour les joueurs professionnels, tout cela est arrivé dans le subconscient, leurs muscles au moment et au bon endroit selon les résultats de leur modèle mental interne prédit balancer la chauve-souris. Tout cela n'a pas besoin d'être une planification consciente.

Pour cette caractéristique de la cognition humaine, en fait, très tôt (à partir de 1995 et 2015) certaines personnes essaient de construire un modèle similaire. La signification de cela est qu'il utilise un cadre simplifié, les expériences démontrent certains des concepts clés de ces études, nous proposons de nouvelles idées d'amélioration, et appliquée efficacement pour améliorer l'environnement d'apprentissage.

En parlant de l'apprentissage par renforcement, les algorithmes RL sont souvent soumis à des problèmes d'affectation de goulot d'étranglement du crédit, et donc difficile à apprendre les algorithmes traditionnels RL millions de poids réseau de neurones à grande échelle. Par conséquent, dans la pratique, pour accélérer l'itération d'une bonne stratégie au cours de la formation, sont normalement utilisés pour les petits réseaux.

Dans ce travail, l'auteur met l'accent sur la formation d'un réseau de neurones pour traiter la RL grande tâche, l'agent est divisé en grand et petit modèle de contrôleur de modèle mondial. L'auteur première manière non supervisée de former de grands réseaux de neurones, ce qui en fait un modèle mondial d'apprentissage d'agent, et le recyclage modèle de contrôleur plus petit, laissez apprendre à effectuer des tâches à l'aide du modèle précédent du monde. Une telle approche assure que le modèle de commande de l'algorithme de formation peut se concentrer sur l'allocation de crédit sur un petit espace de recherche, sans pour autant sacrifier la capacité et la performance d'un modèle plus grand du monde par la force. De plus, ce modèle du bâtiment peut même entièrement dans son propre modèle mondial produit « rêve » agent de formation, et l'effet d'entraînement retransféré au monde réel. structure du modèle agent suit comme:

Dans le détail, la sélection du modèle visuel variationnelle de codage automatique (VAE):

Quels mémoire sélectionnée RNN RNN réseau de densité de mélange de liaison (MDN-RNN):

SketchRNN est un exemple de-RNN MDN, qui peut prédire les croquis de la course suivante. Les auteurs ont utilisé un modèle similaire est utilisé pour prédire un vecteur suivant caché z.

modèle contrôleur (C) chargé de déterminer le cours de l'action à prendre afin de maximiser le rendement attendu de l'agent dans l'environnement. Dans l'expérience de choisir délibérément la plus simple C:

Dans laquelle m et b sont la matrice de poids et le vecteur de décalage. La combinaison ci-dessus de ces trois modèles ensemble est le cas:

expérience de course

Les auteurs premier test pour détecter la voiture avec ce modèle. processus d'expérience est la suivante:

  • 1. collectées à partir d'une politique aléatoire 10000 Out (Rollouts);

  • 2. Formation VAE (V) de l'image vidéo codée implicite 32 dimensions vecteur z;

  • 3. Formation MDN-RNN (M) la modélisation de la distribution de probabilité P (z_ {t + 1} | a_t, z_t, h_t);

  • 4. Définir le contrôleur (C) est a_t = W_c  + B_c;

  • 5. Utilisez les CMA-ES et la résolution W_c pour maximiser le b_c jackpot prévu.

Dans ce jeu de course, agent de contrôle peut faire trois actions: tourner à gauche / droite, l'accélération et le freinage. Les résultats sont les suivants:

Si le modèle ne visuelle (V) -

Si les deux modèle visuel (V) et la mémoire de modèle (M) -

Dans 100 tests, le score moyen du modèle était significativement plus élevé que certains du modèle précédent.

Bien sûr, plus que cela. Parce que le monde du modèle futur peut être modélisé (c.-à, compte tenu de l'état actuel, il peut être un moment de distributions de probabilité générées), donc si cette observation que la valeur réelle, ce qui signifie que l'agent peut posséder « illusion » une scène de course imaginaire, et l'apprentissage dans cette illusion.

Puis appris dans une expérience de rêve, la possibilité de le transférer à l'environnement réel? Nous devons examiner une expérience.

expérience VizDoom

Dans ce jeu, le monstre et l'autre extrémité de la salle tirerai boules de feu, l'agent que vous voulez apprendre est comment éviter ces boules de feu pour éviter d'être tué.

Comme une expérience tout et les courses processus expérimental VizDoom, mais il y a quelques différences. Tout d'abord V en plus le début de codage vidéo en dehors de certains pendant toute la « fantaisie », le monde extérieur est plus vrai de codage des images vidéo, mais la prochaine fois sera transformé fonction vecteur M prédite pour l'image visible. D'autre part, M, non seulement pour prédire l'instant de vecteurs de caractéristiques, mais aussi dans l'anticipation agent de l'Etat mort / vivant. processus d'expérience est la suivante:

  • Accumulés à partir d'une politique aléatoire 10000 Out (Rollouts);

  • Formation de VAE (V) de l'image vidéo codée 64 en tant que vecteur de dimension implicite z; en même temps, en V (1) montrant images collectées dans un espace de caractéristique;

  • Formation MDN-RNN (M) la modélisation de la distribution de probabilité P (z_ {t + 1}, done_ {t + 1} | a_t, z_t, h_t), dans lequel done_ {t + 1} indique l'état mort / inactif de l'agent;

  • contrôleur défini (C) est a_t = W_c ;

  • Utilisez la résolution W_c et CMA-ES b_c pour maximiser le temps de survie prévu dans un environnement virtuel;

  • effet des stratégies de (5) a appris à l'environnement dans le monde réel.

  • Il convient de souligner que, ici, l'agent en plus des données d'image brutes collectées, ne pas rien, ils apprendront comment simuler les règles de base du jeu dans leurs propres rêves, tels que des jeux de logique, le comportement de l'ennemi, les caractéristiques physiques et ainsi de suite. Par exemple, si l'agent est trop loin vers la gauche pour se déplacer dans leur propre imaginaire hors du jeu, il doit apprendre à s'empêcher de se déplacer des deux côtés du mur.

    Illusion et le jeu réel est différent, il y a beaucoup d'incertitudes dans l'illusion, par exemple, vous pouvez voir une boule de feu se déplaçant le long d'un chemin au hasard, ou l'agent mort en quelque sorte, ne pouvait pas expliquer pourquoi. Ici, il est la formation dans un rêve un meilleur résultat:

    Cet agent dans le rêve appliqué à l'environnement réel de jeu, nous avons constaté que même la magie du bien, dans un test aléatoire 100, le frame rate moyen de survie de 1100, beaucoup plus de 750 victoires exigences.

    Cependant, les auteurs ont également constaté que, dans l'expérience d'un bug. Nous savons que quand nous étions jeunes qui SAIT objets jetés tomberont, nous serons encore peu réaliste d'imaginer certains super-héros peut voler dans l'air, parce que nous avons le plein contrôle de notre monde mental, nous sommes libres de créer tout ce que nous voulons.

    De même, dans ce modèle, car le contrôleur peut accéder à toutes les M caché, qui accordant essentiellement la permission d'accéder à tous l'état interne de l'agent, de sorte qu'il peut être manipulé directement pour atteindre ces incitations cachées pour maximiser souhaitées. Par exemple, dans le rêve de l'apprentissage, ces monstres virtuels ne seront pas lancer une boule de feu, donc peu importe la façon dont le mouvement du corps intelligent obtenir un score élevé. Cependant, lorsque les résultats de ces exercices pour obtenir vrai test de l'environnement se trouve que l'agent est bientôt mort. Ceci est similaire à rêvasser plus, dans la vie réelle, il ne réussira pas.

    programme de formation itératives

    Dans les expériences ci-dessus, la tâche est relativement simple, vous pouvez utiliser un ensemble aléatoire de stratégies pour Collect monde en train de modèle de données. Mais si l'environnement est plus complexe, comment faire? Dans ce cas, l'agent ne peut voir une partie du monde. Nous avons donc besoin de plus d'itérations, qui permettent à notre agent d'explorer le monde et continuer à rassembler de nouvelles observations, afin que le monde peut changer et d'affiner leur modèle au fil du temps. Le fonctionnement est le suivant:

  • modèle d'initialisation de paramètre aléatoire M, C;

  • Explorez les temps monde N, l'agent d'apprentissage dans chaque exploration, et tous les actes et les observations X_T a_t enregistrées dans la mémoire;

  • M modèle de formation P (x_ {t + 1}, {r_ t + 1}, {a_ t + 1}, {done_ t + 1} | x_t, a_t, h_t);

  • Si la tâche n'est pas terminée, retournez à (2).

  • Les expériences ci-dessus montrent que pour des tâches simples premier cycle d'itération est suffisante. Pour le mandat peut nécessiter plusieurs itérations. Voici une direction de recherche passionnant est de savoir comment rejoindre la curiosité de l'agent et la motivation intrinsèque à faire davantage pour explorer son dividende.

    discuter

    Le processus ci-dessus a validé la possibilité de la formation dans un espace de rêve de l'agent virtuel entièrement. L'avantage de cette méthode est de soi. Par exemple, le moteur de jeu de calcul intensif, peut nécessiter beaucoup de ressources informatiques pour rendre une trame d'image du jeu, ou qui ne sont pas liés au contenu du jeu lui-même, ce qui a grandement des ressources informatiques gaspillée, mais augmente également la formation du cycle de formation des agents et vous pouvez utiliser moins de ressources dans un environnement de rêve, des périodes de formation plus courts pour obtenir des résultats similaires.

    De plus, nous pouvons utiliser le cadre de l'apprentissage en profondeur pour construire ce modèle du monde, nous allons concevoir le modèle au monde de l'informatique polyvalence d'une carte complète peut être distinguée, l'avantage est que nous pouvons utiliser directement l'algorithme de rétropropagation pour former notre intelligence corps, affiner la fonction politique pour maximiser la cible.

    Modèle lui-même, il doit être amélioré. Par exemple VAE V utilisé dans le modèle, qui était en fait formé comme un modèle autonome a ses propres limites, car il pourrait faire partie sans lien de la tâche ont également été codées, après tout, l'apprentissage non supervisé ne sais pas ce qu'il est utile pour la tâche. Par exemple, l'environnement dans lequel reproduit mosaïque de motif de flanc de détail sans importance Doom, dans des environnements de course, il ne se reproduit pas des blocs associés à la tâche. V en train avec M, VAE peut être plus concentré sur la tâche des domaines liés à l'image. Mais l'inconvénient est que nous ne pouvons pas être en mesure de manière efficace la réutilisation sans la nécessité d'une nouvelle tâche à nouveau VAE.

    L'apprentissage des fonctions de travail liées aux neurosciences ont une grande importance, les neurones sensoriels primaires lors de la réception des prix, sorti de l'état d'inhibition, ce qui indique qu'ils sont généralement associés à la tâche des caractéristiques d'apprentissage à l'âge adulte moins, pas caractéristique . travaux futurs de la tâche peut être d'explorer les moyens d'améliorer encore le modèle V de se concentrer sur les tâches des fonctions liées.

    Un autre problème plus grave possible est la capacité limitée du modèle mondial. Bien que le périphérique de stockage moderne peut stocker une grande quantité de données historiques au moyen d'un processus de formation itérative généré, mais le monde ne peut pas être basé sur le modèle LSTM toutes les informations enregistrées sont stockées en rapport à son poids. Le cerveau humain peut durer des décennies de souvenirs, mais le réseau de neurones rétropropagation formé une capacité limitée en termes de mémoire, souvent question oubliée catastrophique. Si vous voulez que l'agent d'apprendre à explorer un monde plus complexe, les auteurs estiment que les travaux futurs pourraient explorer la façon d'utiliser le modèle de plus grande capacité de remplacer la plus petite capacité réseau-RNN MDN ou fusionner des modules de stockage externes.

    Commentaire sur cet article

    Sur Reddit semble ne manque jamais « dans le domaine de la personne », ils sont souvent en mesure de donner une évaluation correcte du travail. Lei réseau exemple découverte du réseau Feng appelé sieisteinmodel évalué comme suit:

    Je voudrais exprimer une plus large (mais subjectif bien sûr) point de vue. Mais le sens de cet article est de vérifier Jürgen ancienne vue de moderne (après 2005) de la machine: inférence variationnelle, MD-RNNs, l'environnement de prise de vue 3D.

    L'apprentissage d'un modèle, puis un contrôle, cette approche a effectivement été une longue période de temps. Jürgen et d'autres ont plaidé pour des décennies raisons à cela, et c'est cet article apparaît:

    • Ce modèle a son propre nom, on l'appelle « l'apprentissage de renforcement basé sur un modèle »;

    • Il a ses propres sous-domaines tels que la recherche de la politique;

    • Il est bien établi que l'étude aura comme un outil, non seulement comme un contenu de recherche;

    • Il a été très mature, il a déjà été mis en uvre dans le matériel, et pas seulement la simulation;

    • Il est tout à fait compétitif en termes de l'efficacité de l'échantillon;

    • Eric Horvitz Dans son discours avait utilisé un principe plus large.

    Donc, si vous êtes enthousiasmés par cet article, vous pouvez également consulter les travaux antérieurs dans ce domaine. Jürgen vieux papiers, et Marc Peter Deisenroth enquête de recherche sur les politiques de la technologie des robots est un bon point d'entrée. En outre, vous devriez également considérer la recherche de contrôle optimale, c'est une branche très ancienne de la théorie de contrôle, ce qui, en plus de modèle d'apprentissage, l'idée de base a déjà été mis au point.

    A propos du titre, je pense qu'il est pas nécessaire de ce modèle est appelé le « modèle du monde », si tel est le cas, il applique également à toutes les études précédentes. Mais les gens maintenant PR jouent le jeu, ce n'est pas leur faute.

    via worldmodels.github.io, Lei Feng réseau compilé AI Technology Review.

    concept de « l'aventure romantique de Avanti » Avanti release avec des affiches et de sauvetage de raisin ville
    Précédent
    Chaozhou inondation incessante, la chaleur service réseau électronique Huaqiang, se leva et accompagné tout le chemin
    Prochain
    Yen Tu aussi belle et facile à transporter dans un tube de rouge à lèvres minces sont ici!
    Palais de jeu se battre avec BAT, Zhang Yiming peut être considéré comme hard-core gamers font? | Qin Shuo Da sonde Zhen
    Accélérer le pilote automatique de la guerre, un mois après le lancement de CV1, Ambarella a mis en place une nouvelle génération de puce visuelle
    Ensuite, acheter acheter acheter, est devenu aujourd'hui le lac et le rhinocéros gris
    jeu rétro addictive est la vraie raison je reste toute la nuit tous les soirs!
    La plupart des bovins assistante! Jingdong Liu Qiang Est assistante sous le nom de 427 entreprises, en tant que personne morale 195
    Nouvelle tendance de fraîche alimentation saine au large multi-fonction intelligente cuisson machine à cuisson Publié
    tendance Qu'est-ce que les applications de réseautage futur était? IOTE2019 vous dire
    Voir « Lee Chong Wei: le perdant est roi » marchandises un amour proche
    Wu Xiubo, "Bohemian Rhapsody" et "privilège artiste"
    La consommation d'entraînement mise à niveau des modèles d'explosion évolutive Kokichi apportent une grande valeur Yen chute Wall Washer
    Jeu de combat « Fantasy Versus bleu » nouveaux rôles avis: guerre Luanda