DeepMind nouveau document: apprentissage AI Les gens enseignent 3D les mots, mais aussi de les diriger d'utiliser un langage formel

Li Lin compilé à partir Arxiv

Qubit produit numéro public | QbitAI

Récemment, DeepMind a fait deux articles, on est sur le point d'enseigner l'IA d'apprendre la langue L'apprentissage des langues dans la terre un monde 3D Simulé L'autre est sur la commande AI action d'agent sous la forme de langue Agents programmables .

Parlons-en de l'apprentissage de la langue AI il.

Pensez à nos vies quotidiennes, AI pour nous aider à faire de plus en plus décider quelles nouvelles petites pour voir, à acheter des stocks importants. Et parfois, que AI prendra des mesures directes pour nous.

Cependant, il apporte aussi un besoin plus pressant: si l'employeur et de la communication AI, le commandement et les guider.

En d'autres termes, doivent laisser l'IA vraiment comprendre Les gens parlent.

Ce qui est vraiment comprendre? Autrement dit, l'agent peut faire son langage et le comportement, associé monde se trouve.

DeepMind en deux mots utilisés pour décrire l'agent abstrait qu'ils veulent apprendre à ce que la linguistique mesure:

la terre, il y a aussi la base, le gaz du sol, peut un mot dans un article et l'agent directement rencontré dans l'environnement, le comportement expérimenté lié;

incarnés, qui est capable de parler spécifiquement sur.

Cependant, la langue est difficile à apprendre à laisser le gaz au sol AI.

DeepMind Cet article décrit une nouvelle méthode: l'agent dans un environnement 3D virtuel, si elle exécutée avec succès l'instruction correctement écrit dans le langage humain, donner des prix.

De cette façon, ils sont, avec l'apprentissage de renforcement et d'apprentissage non supervisé combiné pour la formation des agents, laissez apprendre à comprendre le langage humain.

La figure est un exemple de papier DeepMind cité: un agent de démarrage est en position 1, recevoir une instruction, « l'objet rouge à côté des objets verts récupérés », de sorte que les deux chambres « visite » à nouveau, de voir la chambre les objets et leurs positions relatives, trouver la nécessité de ramasser des objets.

Cette exploration, le comportement de choix, et il est pré-programmé entièrement par des incitations Institut pas.

Ces explorations ont formé des centaines de milliers de variantes, l'agent rencontrera différents plans de salle, le placement d'objets différents et ainsi de suite.

Pendant la formation, l'agent des connaissances presque pas avant, juste par les symboles de langage associés de séquence et de son environnement physique semble caractériser la perception et de comportement, d'apprendre la langue.

Il est à cause de l'agent comprendre la langue ne dépend pas de l'expérience antérieure, si les chercheurs agent dans un environnement tout à fait étrange, il a appris la question de la langue de nouvelles instructions pour, comme l'agent complet.

chercheurs DeepMind ont également constaté que, avec l'accumulation de connaissances sémantiques, l'agent d'apprendre de nouveaux mots plus rapidement et plus rapidement.

Ils croient que cette généralisation des connaissances sémantiques et la capacité d'auto-expansion, ils expliquent maintenant la méthode utilisée a le potentiel pour faire un agent AI vague compréhension du lien entre le langage naturel et de la complexité du monde physique.

En ce qui concerne processus de formation spécifique et les principes, s'il vous plaît déplacer le papier:

L'apprentissage des langues dans la terre un monde 3D Simulé

https://arxiv.org/pdf/1706.06551.pdf

Auteur: Karl Moritz Hermann, Colline Felix, Simon Green, Fumin Wang, Ryan Faulkner, Hubert Soyer, David Szepesvari, Wojtek Czarnecki, Max Jaderberg, Denis Teplyashin, Marcus Wainwright, Chris Apps, Demis Hassabis, Phil Blunsom

Méthodes de formation mentionnées ci-dessus, il est dans un environnement virtuel 3D, de sorte que l'agent qui exécute des instructions écrites dans un langage humain.

Dans un autre groupe de chercheurs DeepMind Rifa à Axriv avec un autre papier, cependant, l'exécution de l'agent est sous forme écrite simple de la langue d'enseignement, cette étude permet des objets rencontrés agent jamais vu auparavant, mais aussi de répondre de manière souple .

Le titre de cet article est: programmables agents. L'expérience nous dit, que ce soit des nouvelles ou des articles, plus la plus courte est la chose du titre ...... Bien sûr, dans le domaine de la recherche en IA, cette règle récemment de plus en plus suspect.

Jetons un coup d'oeil à cet article ce que vous voulez faire AI.

En termes simples, il est de laisser l'agent exécuter un programme descriptif exprimé dans un langage formel.

Dans cette étude, les chercheurs ont mis en environnement est une grande table, au milieu d'un bras de robot ayant six articulations, entouré d'un certain nombre de blocs de construction, apparaissent à des positions aléatoires.

Ils le font, est de rendre l'environnement virtuel « du bras de robot » d'être une couleur particulière, la forme des blocs de construction, à savoir une poignée (la partie blanche de l'extrémité avant du bras de robot), dehors dans le voisinage des éléments de base cible.

Et la « forme de programme de langage descriptif » mentionné ci-dessus, est réalisée: PROCHE (MAIN ET (RED, CUBE)) Représentant près de main cubes rouges.

Spécifié dans la langue officielle, et la forme de la couleur cible. Dans le programme spécifique, la taille du bureau, le nombre de buts peut également changer.

Dans la figure, le plus à gauche l'une des séances de formation de « sphériques stretch bleu », un autre agent trois spectacles après cette généralisation de la formation, y compris les changements dans la nature de la cible (deuxième à gauche: vers les briques rouges ), l'évolution du nombre d'objets dans l'environnement (deuxième à droite: la balle vers le vert, attention à la table ici beaucoup plus blocs de construction), ainsi que l'émergence de nouvelle nature cible (le droit de celui-ci: vers de nouvelles briques rouges).

DeepMind de ce groupe de chercheurs a dit qu'ils ont appris après que l'agent de formation pour trouver la cible dans leur environnement, dans le test peut être généralisé à cette capacité selon les instructions de la langue, la mise en uvre du nouveau programme, trouvé dans la formation il n'a jamais mentionné les objectifs. Leur agent peut être généralisé à la sémantique-shot zéro d'un large éventail de tâches.

processus de formation spécifique et principes, ou le papier de lieu:

Agents programmables

https://arxiv.org/pdf/1706.06383.pdf

Misha Denil, Sergio Gómez Colmenarejo, Serkan Cabi, David Saxton, Nando de Freitas

[Fin]

Un avis

Qubit étant mis en place un groupe de la technologie de conduite automatique, pilote automatique de recherche pour des domaines connexes dans les ingénieurs de l'école ou de première ligne. Kai-Fu Lee, Wang Yonggang, rock Nai Et d'autres gros bétail sont dans le groupe. Bienvenue à ajouter qubits micro lettre (qbitbot), notes "pilote automatique" application ~ Jia Ruha

recrutement

Qubits recrute des éditeurs et des journalistes, des opérations, des produits et d'autres positions, basé à Zhongguancun de Beijing. Détails, le numéro de l'interface de dialogue public, répond: « Le recrutement. »

Ancien patron du parti dans la viande et les pommes de terre? Les médias étrangers: les équipes de Super League intéressés par Carlo assez profond Xiemoshalv prêt?
Précédent
Jedi pour survivre à la nouvelle carte de la forêt, l'endroit le plus approprié pour arme juste, je veux venir ici pour tuer dix à droite
Prochain
L'histoire des plus difficiles concours à 3 points, gagnant Qui sont-ils? James Wong méprisent l'ancien acolyte!
Sans souffrance et d'autres nouvelles contemporaines Chongqing Lifan Chongqing a été rebaptisée Swift
Yanggeweiqi Muguangruju! N ° 16 joueur caractère typique de Dalian, le football Dalian pas anxieux
couronne huitième! Tsinghua trois trophée du championnat de course supercalculateurs l'un de plus
LOL Coupe Intercontinental: LPL après avoir remporté, DoinB brutalement coréen menace Netizen: Ne pas avoir la possibilité de retour à la maison!
Rockets quatre __gVirt_NP_NNS_NNPS<__ chanceux! kahuang retour 50% tireur est revenu il y a deux renforts importants!
Yanggeweiqi regarder le manque de concentration? Je lui avais fait du tort! Il croit que le plus fort de Super aide étrangère à Dalian
maquillage Chengdu grande libération de Dior Dior
le style Nouvel An chinois Nouvel An lunaire qui leur est propre, cinq équipes de la NBA en lice pour l'équipe à domicile chinois, un spectacle de variétés prennent opération du cur!
"Bien Fared" en MG 6 plug-in version hybride du 28 Mars pour conduire la BMW 3 Series pression Alexander
L'un des deux offensive de base et étreinte défensive, fille innocente Gaitan, un soleil de photographie nouveaux fans cités concernent
Chengdu campus de l'Université des sciences et de la technologie électronique cérémonie d'inauguration a eu lieu Shifang