DeepMind nouveau document: apprentissage AI Les gens enseignent 3D les mots, mais aussi de les diriger d'utiliser un langage formel

Li Lin compil� � partir Arxiv

Qubit produit num�ro public | QbitAI

R�cemment, DeepMind a fait deux articles, on est sur le point d'enseigner l'IA d'apprendre la langue L'apprentissage des langues dans la terre un monde 3D Simul� L'autre est sur la commande AI action d'agent sous la forme de langue Agents programmables .

Parlons-en de l'apprentissage de la langue AI il.

Pensez � nos vies quotidiennes, AI pour nous aider � faire de plus en plus d�cider quelles nouvelles petites pour voir, � acheter des stocks importants. Et parfois, que AI prendra des mesures directes pour nous.

Cependant, il apporte aussi un besoin plus pressant: si l'employeur et de la communication AI, le commandement et les guider.

En d'autres termes, doivent laisser l'IA vraiment comprendre Les gens parlent.

Ce qui est vraiment comprendre? Autrement dit, l'agent peut faire son langage et le comportement, associ� monde se trouve.

DeepMind en deux mots utilis�s pour d�crire l'agent abstrait qu'ils veulent apprendre � ce que la linguistique mesure:

la terre, il y a aussi la base, le gaz du sol, peut un mot dans un article et l'agent directement rencontr� dans l'environnement, le comportement exp�riment� li�;

incarn�s, qui est capable de parler sp�cifiquement sur.

Cependant, la langue est difficile � apprendre � laisser le gaz au sol AI.

DeepMind Cet article d�crit une nouvelle m�thode: l'agent dans un environnement 3D virtuel, si elle ex�cut�e avec succ�s l'instruction correctement �crit dans le langage humain, donner des prix.

De cette fa�on, ils sont, avec l'apprentissage de renforcement et d'apprentissage non supervis� combin� pour la formation des agents, laissez apprendre � comprendre le langage humain.

La figure est un exemple de papier DeepMind cit�: un agent de d�marrage est en position 1, recevoir une instruction, � l'objet rouge � c�t� des objets verts r�cup�r�s �, de sorte que les deux chambres � visite � � nouveau, de voir la chambre les objets et leurs positions relatives, trouver la n�cessit� de ramasser des objets.

Cette exploration, le comportement de choix, et il est pr�-programm� enti�rement par des incitations Institut pas.

Ces explorations ont form� des centaines de milliers de variantes, l'agent rencontrera diff�rents plans de salle, le placement d'objets diff�rents et ainsi de suite.

Pendant la formation, l'agent des connaissances presque pas avant, juste par les symboles de langage associ�s de s�quence et de son environnement physique semble caract�riser la perception et de comportement, d'apprendre la langue.

Il est � cause de l'agent comprendre la langue ne d�pend pas de l'exp�rience ant�rieure, si les chercheurs agent dans un environnement tout � fait �trange, il a appris la question de la langue de nouvelles instructions pour, comme l'agent complet.

chercheurs DeepMind ont �galement constat� que, avec l'accumulation de connaissances s�mantiques, l'agent d'apprendre de nouveaux mots plus rapidement et plus rapidement.

Ils croient que cette g�n�ralisation des connaissances s�mantiques et la capacit� d'auto-expansion, ils expliquent maintenant la m�thode utilis�e a le potentiel pour faire un agent AI vague compr�hension du lien entre le langage naturel et de la complexit� du monde physique.

En ce qui concerne processus de formation sp�cifique et les principes, s'il vous pla�t d�placer le papier:

L'apprentissage des langues dans la terre un monde 3D Simul�

https://arxiv.org/pdf/1706.06551.pdf

Auteur: Karl Moritz Hermann, Colline Felix, Simon Green, Fumin Wang, Ryan Faulkner, Hubert Soyer, David Szepesvari, Wojtek Czarnecki, Max Jaderberg, Denis Teplyashin, Marcus Wainwright, Chris Apps, Demis Hassabis, Phil Blunsom

M�thodes de formation mentionn�es ci-dessus, il est dans un environnement virtuel 3D, de sorte que l'agent qui ex�cute des instructions �crites dans un langage humain.

Dans un autre groupe de chercheurs DeepMind Rifa � Axriv avec un autre papier, cependant, l'ex�cution de l'agent est sous forme �crite simple de la langue d'enseignement, cette �tude permet des objets rencontr�s agent jamais vu auparavant, mais aussi de r�pondre de mani�re souple .

Le titre de cet article est: programmables agents. L'exp�rience nous dit, que ce soit des nouvelles ou des articles, plus la plus courte est la chose du titre ...... Bien s�r, dans le domaine de la recherche en IA, cette r�gle r�cemment de plus en plus suspect.

Jetons un coup d'oeil � cet article ce que vous voulez faire AI.

En termes simples, il est de laisser l'agent ex�cuter un programme descriptif exprim� dans un langage formel.

Dans cette �tude, les chercheurs ont mis en environnement est une grande table, au milieu d'un bras de robot ayant six articulations, entour� d'un certain nombre de blocs de construction, apparaissent � des positions al�atoires.

Ils le font, est de rendre l'environnement virtuel � du bras de robot � d'�tre une couleur particuli�re, la forme des blocs de construction, � savoir une poign�e (la partie blanche de l'extr�mit� avant du bras de robot), dehors dans le voisinage des �l�ments de base cible.

Et la � forme de programme de langage descriptif � mentionn� ci-dessus, est r�alis�e: PROCHE (MAIN ET (RED, CUBE)) Repr�sentant pr�s de main cubes rouges.

Sp�cifi� dans la langue officielle, et la forme de la couleur cible. Dans le programme sp�cifique, la taille du bureau, le nombre de buts peut �galement changer.

Dans la figure, le plus � gauche l'une des s�ances de formation de � sph�riques stretch bleu �, un autre agent trois spectacles apr�s cette g�n�ralisation de la formation, y compris les changements dans la nature de la cible (deuxi�me � gauche: vers les briques rouges ), l'�volution du nombre d'objets dans l'environnement (deuxi�me � droite: la balle vers le vert, attention � la table ici beaucoup plus blocs de construction), ainsi que l'�mergence de nouvelle nature cible (le droit de celui-ci: vers de nouvelles briques rouges).

DeepMind de ce groupe de chercheurs a dit qu'ils ont appris apr�s que l'agent de formation pour trouver la cible dans leur environnement, dans le test peut �tre g�n�ralis� � cette capacit� selon les instructions de la langue, la mise en uvre du nouveau programme, trouv� dans la formation il n'a jamais mentionn� les objectifs. Leur agent peut �tre g�n�ralis� � la s�mantique-shot z�ro d'un large �ventail de t�ches.

processus de formation sp�cifique et principes, ou le papier de lieu:

Agents programmables

https://arxiv.org/pdf/1706.06383.pdf

Misha Denil, Sergio G�mez Colmenarejo, Serkan Cabi, David Saxton, Nando de Freitas

[Fin]

Un avis

Qubit �tant mis en place un groupe de la technologie de conduite automatique, pilote automatique de recherche pour des domaines connexes dans les ing�nieurs de l'�cole ou de premi�re ligne. Kai-Fu Lee, Wang Yonggang, rock Nai Et d'autres gros b�tail sont dans le groupe. Bienvenue � ajouter qubits micro lettre (qbitbot), notes "pilote automatique" application ~ Jia Ruha

recrutement

Qubits recrute des �diteurs et des journalistes, des op�rations, des produits et d'autres positions, bas� � Zhongguancun de Beijing. D�tails, le num�ro de l'interface de dialogue public, r�pond: � Le recrutement. �

Route de la soie

Apprenez � conna�tre la Chine

DeepMind nouveau document: apprentissage AI Les gens enseignent 3D les mots, mais aussi de les diriger d'utiliser un langage formel