OpenAI essayer de briser le � paradoxe de la chambre chinoise �, l'IA pour cr�er le langage et les �changes spontan�s

Machine � grande �chelle la technologie d'apprentissage a fait d'�normes progr�s dans la traduction, le raisonnement verbal, la compr�hension du langage, la g�n�ration de phrase et d'autres domaines, et ses m�thodes de formation sont similaires:

De grandes quantit�s d'entr�e de donn�es texte au syst�me;
Extraction de caract�ristiques et le mode de syst�me de raffinage.

Bien qu'un tel fructueux de recherche, mais le principal inconv�nient est que la caract�risation de la qualit� de l'apprentissage des langues aura une incidence sur les r�sultats correspondants. Lei Feng r�seau a appris, et maintenant de plus en plus de spectacles de recherche que si un ordinateur de formation linguistique particulier, le syst�me ne fonctionne pas en fait une profonde compr�hension de la relation entre le langage et le monde r�el. OpenAI a d�couvert le probl�me et est d�termin� � faire corps intelligent pour cr�er leur propre fonction de leur propre perception de la langue.

mod�le de formation du syst�me en l'absence de base de la langue, comme une machine John Searles dans � Chinese Room th�orie � a �t� mentionn�, les r�sultats et l'analyse de leur saisie de grandes quantit�s de donn�es texte par opposition � un s�jour dans la � chambre �. sera en mesure d'interagir avec le monde ext�rieur dans une description textuelle, alors comment pouvons-nous savoir si mon ordinateur est moyenne � intelligent �?

Lei Feng r�seau AI Technology Review qui a r�cemment annonc� leurs r�sultats OpenAI d'une �tude visant � prouver que par la formation, l'agent peut cr�er la langue et de la communication. En m�me temps, ils seront �galement des documents � Emergence de Grounded compositionnelle Langue dans les populations multi-agents � synchronis� sur arXiv.

�tude OpenAI est bas�e sur l'hypoth�se que: l'agent compr�hension du mod�le linguistique, raffin�es dans un grand corpus de texte, mais � travers les mots et le lien entre l'environnement d'apprentissage et de mise en uvre. Par cons�quent, les chercheurs ont voulu savoir si l'agent qui g�n�re spontan�ment une langue de communication interne.

Agent cr�er une formation linguistique

Les chercheurs en IA agent dans un environnement simple, et leur permettre la libert� de communication. OpenAI utilise une strat�gie de renforcement apprentissage que lorsqu'ils atteignent un objectif, il sera r�compens� (r�compense). Afin d'atteindre l'objectif (au retour) ensemble, l'agent qui sera en mesure de cr�er leur propre langue.

Bien s�r, l'agent con�u le langage et le langage humain est pas aussi compliqu�, mais � terre � terre � et � peuvent �tre mis en place � dans (la terre et compositonal). Grounded fait r�f�rence au contenu des mots et locuteur d'une langue peut �tre contact� directement li�. Par exemple, le haut-parleur appara�t en m�me temps le mot � arbre � avec une photo d'un arbre, d'exprimer une correspondance. Compositionnelle et fait r�f�rence � l'orateur dans l'expression d'une instruction sp�cifique, peuvent �tre une combinaison de diff�rents mots dans une phrase, comme un autre agent n�cessaire pour passer � un emplacement sp�cifi�.

L'exp�rience est bas�e sur un monde � deux dimensions, l'agent a pu terminer le d�placement, l'observation et le dialogue et d'autres t�ches. Est pr�sent� � la figure un agent �tait � la recherche � un moment donn� au milieu du n � 1, et ce (�nonc�) dit.

Afin de former des comp�tences de communication Agent, les chercheurs ont con�u une exp�rience OpenAI nature coop�rative (plut�t que la concurrence), pour r�soudre les probl�mes d'apprentissage de renforcement multi-agents. Agent dans lequel le monde � deux dimensions marqu� de diff�rentes couleurs de rep�res (historiques), et chaque agent a fix� un objectif d'un correspondant, mais divis� en deux cat�gories:

L'une est compl�te spontan�e la t�che, comme la ligne de mire pour voir un point de rep�re local o� un point de rep�re, ou un d�m�nagement;
Type II est une commande autre agent pour ex�cuter une t�che.

Bien entendu, chaque agent aura la capacit� de communiquer avec un autre agent, peut transmettre les uns aux autres informations. Et le lieu Agent r�compense r�sultant et incitation qu'ils additionnent pertinents obtenus, donc afin de maximiser les r�compenses, chaque agent suivra les principes de coop�ration.

agent d'apprentissage par renforcement prennent g�n�ralement deux actions:

1. Les actions li�es � l'environnement, tels que le d�placement et l'observation;
2. �change et les actions connexes, telles que l'envoi de messages � un autre agent.

Il est une valeur que l'mention agent utilise des symboles abstraits un vecteur chaud de codage (One Hot-Vector) repr�sent�, mais afin de faciliter les chercheurs � comprendre ce que l'agent voulait dire, comme l'utilisation de � Regardez � ou � Aller � � ces mots pour exprimer.

(AI Lei Network Technology Feng Revue par: il y a de nombreuses fonctionnalit�s discr�tes dans les t�ches d'apprentissage de la machine, afin de convertir les valeurs caract�ristiques au num�rique, et peuvent en permanence et ordonn�e comprendre les donn�es, en utilisant le codage One-Hot peut r�soudre ce probl�me.

Des exemples de l'utilisation Quora pour expliquer: par exemple, il y a maintenant quatre cat�gories: les gens, pingouin, poulpe, �trangers, portant le num�ro 1234 dans l'ordre. [Personnes], puis � l'�chantillon en termes de codage est {1,0,0,0}, et le correspondant cod� sous la forme {0,0,0,1} d'�chantillons, correspond en fait � l'�chantillon] [�tranger . )

montre l'illustration comment l'agent est la communication. A l'instant t = 0, l'agent rouge indique l'endroit marqu� en rouge, puis t = 1 a donn� le mot pour l'instruction � Allez �, et 2 passe cette commande pour � vert-agent � � t =, � t = 3 affichage de l'heure, l'agent vert � comprendre le sens v�hicul� par l'agent rouge et passer � une position o� la marque rouge.

canal de communication agent est l'intersection, et chaque canal � chaque point de temps est lisse, pour faire en sorte que les informations peuvent �tre transmises facilement � l'agent correspondant. En tant qu'ancien agent dans l'action, il va d'abord faire face � la situation avant un point de communication en temps, pour d�terminer la position respective est situ�e, puis d�cider de la prochaine deuxi�me �v�nement.

Agent pour d�terminer le prochain plan d'action en calculant la variation des r�compenses futures attendues et gradient des incitations. Si l'agent trouve un autre agent a envoy� des informations pour �tre en mesure de faire mieux, l'ancien �mettra des instructions appropri�es � ce dernier. En d'autres termes, l'agent continuera � penser dans ce processus, � comment communiquer pour maximiser la r�compense? �

Pendant la formation, les chercheurs ont utilis� une politique Gumbel-Softmax, la d�cision de communiquer avec une continuit� s�par�e repr�sentation approximative. En d'autres termes, l'agent peut �tre utilis� pour caract�riser la continuit� de l'apprentissage communiquer rapidement avec l'autre, la s�paration et la collecte de sortie � la fin de la formation, repr�sentant la combinaison de plus expressif.

Dans la vid�o suivante, par exemple, l'agent dans l'environnement afin d'am�liorer la complexit� de leur propre langue est �galement en hausse.

Les trois situations typiques suivantes:

Agent unique n'a pas besoin de communiquer (figure 1).;
Agent pour deux t�ches simples, a invent� une coordination de l'�change de mots (figure 2).;
Trois agent dans la face des t�ches plus complexes, ce qui cr�e une phrase contenant une pluralit� de mots (Figure 3).

(Figure 1:. Un besoin unique agent ne communiquer)

(Figure 2:. Agent pour deux t�ches simples, invent� une coordination de l'�change de mots)

(Figure 3: trois agent dans la face de t�ches plus complexes, ce qui cr�e une phrase contenant plusieurs mots)

Probl�mes et solutions

L'avenir est prometteur, la route est tortueuse. Dans le processus de r�alisation de l'agent d'�change, OpenAI a �galement trouv� un certain nombre de probl�mes.

Tout d'abord, la langue est difficile � synth�tiser

OpenAI un d�but � la d�couverte, l'exp�rience la cr�ation de certains discours intelligent unique et mis en correspondance avec l'espace. Un tel langage comme le code Morse ne peut pas �tre d�chiffr�, et n'a pas synth�tique. En d'autres termes, ces � oiseaux � ne peuvent pas �tre compris comme l'autre agent, de ne pas parler de travailler ensemble.

Pour r�soudre ce probl�me, les chercheurs donnent une certaine d�claration des co�ts (c'est-�-dire, en parlant besoin d'agent de consommer certaines incitations), et d'am�liorer la priorit� � pour terminer rapidement la t�che � de. En cons�quence, l'agent peut communiquer dans une langue plus simple, et de d�velopper un plus grand vocabulaire.

En second lieu, trop concise

Les chercheurs ont �galement constat� que l'exp�rience du renseignement pour essayer un contenu cod� mot exprim� dans une phrase. La raison de ce probl�me est que les chercheurs b�n�ficient de la possibilit� d'utiliser un grand agent de vocabulaire, de sorte que l'exp�rience intelligente avec un mot pour exprimer le � mouvement rouge-agent au rep�re bleu. � Par cons�quent, conduire � un vocabulaire et la longueur des phrases exponentielle comme la croissance, mais aussi avec le d�veloppement de contraire AI compr�hensible � l'intention initiale.

Afin d'�viter que l'agent des phrases trop � concise �, les chercheurs de syntaxe inspir�e par l'�volution des �changes, ainsi que la pr�f�rence pour le poids des mots, et de r�duire la taille de la biblioth�que de mots. De plus, la pr�sence d'une fr�quence de mot particulier et les r�compenses li�es � encourager le corps moins intelligent cr�er un nouveau mot.

Troisi�mement, ne suffit pas � absolu �

Si vous regardez � l'avant de la vid�o, vous trouverez l'agent de couleur est utilis� pour indiquer les points de rep�re correspondants ou des objets. Mais en fait, le d�but n'est pas le cas. Les chercheurs ont �galement constat� que l'agent sera parfois utiliser � de plus haut �, des mots tels que � le plus � gauche � pour exprimer, d'exprimer ces mots sont bas�s sur la position relative des coordonn�es � deux dimensions, bien que travaille �galement dans cet environnement, Cependant, en raison de trop pr�cis, une fois que l'agent de changement de la structure g�ographique, le syst�me ne peut pas tourner et courir.

Pour r�soudre ce probl�me, les chercheurs ont essuy�s l'agent de contact dans un syst�me de coordonn�es absolu, qui est, chaque agent se trouvent � l'origine du syst�me de coordonn�es de son propre, et ne peuvent pas �tre partag�es syst�me de coordonn�es, ils apprennent naturellement � utiliser plus certainement pour indiquer un attribut de couleur correspondante du rep�re.

L'agent peut �tre un homme de main droite de ses co�quipiers

Lorsque l'agent ne peut pas passer par l'�change de texte, et la n�cessit� d'agir dans un environnement simul� particulier, la formation peut �tre appliqu�e de mani�re �gale. Les chercheurs ont d�montr� les circonstances particuli�res suivantes:

1. agent en indiquant les informations d'emplacement cible indiquant un autre agent;

2. Petit-agent de grande proximit� de l'agent d'amor�age � la cible;

3. pousser petit agent sans fonction visuelle de grande proximit� de l'agent � la cible.

� l'avenir, OpenAI veulent la machine � cr�er �troitement �troitement li�e � leur propre exp�rience linguistique. Si l'on ajoute � cela la complexit� de l'environnement en fonction des exp�riences et �largir le champ des activit�s de l'agent, et peut-�tre ils peuvent cr�er un nouveau langage expressif, pr�sentant un sens plus riche.

Avec la complexit� croissante du langage machine, comment les humains comprennent ce langage? Cette �tude porte sur l'intelligence artificielle, la linguistique et les sciences cognitives. Le prochain projet, la coop�ration Ryan Lowe avec le plan Igor Mordatch avec des chercheurs de l'Universit� de Berkeley UC, que l'agent de communiquer avec l'agent anglophone, la langue de la machine cr��e pour l'homme � comprendre. Lei Feng r�seau continuera � se concentrer.

Route de la soie