OpenAI essayer de briser le « paradoxe de la chambre chinoise », l'IA pour créer le langage et les échanges spontanés

Machine à grande échelle la technologie d'apprentissage a fait d'énormes progrès dans la traduction, le raisonnement verbal, la compréhension du langage, la génération de phrase et d'autres domaines, et ses méthodes de formation sont similaires:

  • De grandes quantités d'entrée de données texte au système;

  • Extraction de caractéristiques et le mode de système de raffinage.

Bien qu'un tel fructueux de recherche, mais le principal inconvénient est que la caractérisation de la qualité de l'apprentissage des langues aura une incidence sur les résultats correspondants. Lei Feng réseau a appris, et maintenant de plus en plus de spectacles de recherche que si un ordinateur de formation linguistique particulier, le système ne fonctionne pas en fait une profonde compréhension de la relation entre le langage et le monde réel. OpenAI a découvert le problème et est déterminé à faire corps intelligent pour créer leur propre fonction de leur propre perception de la langue.

modèle de formation du système en l'absence de base de la langue, comme une machine John Searles dans « Chinese Room théorie » a été mentionné, les résultats et l'analyse de leur saisie de grandes quantités de données texte par opposition à un séjour dans la « chambre ». sera en mesure d'interagir avec le monde extérieur dans une description textuelle, alors comment pouvons-nous savoir si mon ordinateur est moyenne « intelligent »?

Lei Feng réseau AI Technology Review qui a récemment annoncé leurs résultats OpenAI d'une étude visant à prouver que par la formation, l'agent peut créer la langue et de la communication. En même temps, ils seront également des documents « Emergence de Grounded compositionnelle Langue dans les populations multi-agents » synchronisé sur arXiv.

étude OpenAI est basée sur l'hypothèse que: l'agent compréhension du modèle linguistique, raffinées dans un grand corpus de texte, mais à travers les mots et le lien entre l'environnement d'apprentissage et de mise en uvre. Par conséquent, les chercheurs ont voulu savoir si l'agent qui génère spontanément une langue de communication interne.

Agent créer une formation linguistique

Les chercheurs en IA agent dans un environnement simple, et leur permettre la liberté de communication. OpenAI utilise une stratégie de renforcement apprentissage que lorsqu'ils atteignent un objectif, il sera récompensé (récompense). Afin d'atteindre l'objectif (au retour) ensemble, l'agent qui sera en mesure de créer leur propre langue.

Bien sûr, l'agent conçu le langage et le langage humain est pas aussi compliqué, mais « terre à terre » et « peuvent être mis en place » dans (la terre et compositonal). Grounded fait référence au contenu des mots et locuteur d'une langue peut être contacté directement lié. Par exemple, le haut-parleur apparaît en même temps le mot « arbre » avec une photo d'un arbre, d'exprimer une correspondance. Compositionnelle et fait référence à l'orateur dans l'expression d'une instruction spécifique, peuvent être une combinaison de différents mots dans une phrase, comme un autre agent nécessaire pour passer à un emplacement spécifié.

L'expérience est basée sur un monde à deux dimensions, l'agent a pu terminer le déplacement, l'observation et le dialogue et d'autres tâches. Est présenté à la figure un agent était à la recherche à un moment donné au milieu du n ° 1, et ce (énoncé) dit.

Afin de former des compétences de communication Agent, les chercheurs ont conçu une expérience OpenAI nature coopérative (plutôt que la concurrence), pour résoudre les problèmes d'apprentissage de renforcement multi-agents. Agent dans lequel le monde à deux dimensions marqué de différentes couleurs de repères (historiques), et chaque agent a fixé un objectif d'un correspondant, mais divisé en deux catégories:

  • L'une est complète spontanée la tâche, comme la ligne de mire pour voir un point de repère local où un point de repère, ou un déménagement;

  • Type II est une commande autre agent pour exécuter une tâche.

Bien entendu, chaque agent aura la capacité de communiquer avec un autre agent, peut transmettre les uns aux autres informations. Et le lieu Agent récompense résultant et incitation qu'ils additionnent pertinents obtenus, donc afin de maximiser les récompenses, chaque agent suivra les principes de coopération.

agent d'apprentissage par renforcement prennent généralement deux actions:

  • 1. Les actions liées à l'environnement, tels que le déplacement et l'observation;

  • 2. échange et les actions connexes, telles que l'envoi de messages à un autre agent.

Il est une valeur que l'mention agent utilise des symboles abstraits un vecteur chaud de codage (One Hot-Vector) représenté, mais afin de faciliter les chercheurs à comprendre ce que l'agent voulait dire, comme l'utilisation de « Regardez » ou « Aller à « ces mots pour exprimer.

(AI Lei Network Technology Feng Revue par: il y a de nombreuses fonctionnalités discrètes dans les tâches d'apprentissage de la machine, afin de convertir les valeurs caractéristiques au numérique, et peuvent en permanence et ordonnée comprendre les données, en utilisant le codage One-Hot peut résoudre ce problème.

Des exemples de l'utilisation Quora pour expliquer: par exemple, il y a maintenant quatre catégories: les gens, pingouin, poulpe, étrangers, portant le numéro 1234 dans l'ordre. [Personnes], puis à l'échantillon en termes de codage est {1,0,0,0}, et le correspondant codé sous la forme {0,0,0,1} d'échantillons, correspond en fait à l'échantillon] [étranger . )

montre l'illustration comment l'agent est la communication. A l'instant t = 0, l'agent rouge indique l'endroit marqué en rouge, puis t = 1 a donné le mot pour l'instruction « Allez », et 2 passe cette commande pour « vert-agent » à t =, à t = 3 affichage de l'heure, l'agent vert à comprendre le sens véhiculé par l'agent rouge et passer à une position où la marque rouge.

canal de communication agent est l'intersection, et chaque canal à chaque point de temps est lisse, pour faire en sorte que les informations peuvent être transmises facilement à l'agent correspondant. En tant qu'ancien agent dans l'action, il va d'abord faire face à la situation avant un point de communication en temps, pour déterminer la position respective est située, puis décider de la prochaine deuxième événement.

Agent pour déterminer le prochain plan d'action en calculant la variation des récompenses futures attendues et gradient des incitations. Si l'agent trouve un autre agent a envoyé des informations pour être en mesure de faire mieux, l'ancien émettra des instructions appropriées à ce dernier. En d'autres termes, l'agent continuera à penser dans ce processus, « comment communiquer pour maximiser la récompense? »

Pendant la formation, les chercheurs ont utilisé une politique Gumbel-Softmax, la décision de communiquer avec une continuité séparée représentation approximative. En d'autres termes, l'agent peut être utilisé pour caractériser la continuité de l'apprentissage communiquer rapidement avec l'autre, la séparation et la collecte de sortie à la fin de la formation, représentant la combinaison de plus expressif.

Dans la vidéo suivante, par exemple, l'agent dans l'environnement afin d'améliorer la complexité de leur propre langue est également en hausse.

Les trois situations typiques suivantes:

  • Agent unique n'a pas besoin de communiquer (figure 1).;

  • Agent pour deux tâches simples, a inventé une coordination de l'échange de mots (figure 2).;

  • Trois agent dans la face des tâches plus complexes, ce qui crée une phrase contenant une pluralité de mots (Figure 3).

(Figure 1:. Un besoin unique agent ne communiquer)

(Figure 2:. Agent pour deux tâches simples, inventé une coordination de l'échange de mots)

(Figure 3: trois agent dans la face de tâches plus complexes, ce qui crée une phrase contenant plusieurs mots)

Problèmes et solutions

L'avenir est prometteur, la route est tortueuse. Dans le processus de réalisation de l'agent d'échange, OpenAI a également trouvé un certain nombre de problèmes.

Tout d'abord, la langue est difficile à synthétiser

OpenAI un début à la découverte, l'expérience la création de certains discours intelligent unique et mis en correspondance avec l'espace. Un tel langage comme le code Morse ne peut pas être déchiffré, et n'a pas synthétique. En d'autres termes, ces « oiseaux » ne peuvent pas être compris comme l'autre agent, de ne pas parler de travailler ensemble.

Pour résoudre ce problème, les chercheurs donnent une certaine déclaration des coûts (c'est-à-dire, en parlant besoin d'agent de consommer certaines incitations), et d'améliorer la priorité « pour terminer rapidement la tâche » de. En conséquence, l'agent peut communiquer dans une langue plus simple, et de développer un plus grand vocabulaire.

En second lieu, trop concise

Les chercheurs ont également constaté que l'expérience du renseignement pour essayer un contenu codé mot exprimé dans une phrase. La raison de ce problème est que les chercheurs bénéficient de la possibilité d'utiliser un grand agent de vocabulaire, de sorte que l'expérience intelligente avec un mot pour exprimer le « mouvement rouge-agent au repère bleu. » Par conséquent, conduire à un vocabulaire et la longueur des phrases exponentielle comme la croissance, mais aussi avec le développement de contraire AI compréhensible à l'intention initiale.

Afin d'éviter que l'agent des phrases trop « concise », les chercheurs de syntaxe inspirée par l'évolution des échanges, ainsi que la préférence pour le poids des mots, et de réduire la taille de la bibliothèque de mots. De plus, la présence d'une fréquence de mot particulier et les récompenses liées à encourager le corps moins intelligent créer un nouveau mot.

Troisièmement, ne suffit pas « absolu »

Si vous regardez à l'avant de la vidéo, vous trouverez l'agent de couleur est utilisé pour indiquer les points de repère correspondants ou des objets. Mais en fait, le début n'est pas le cas. Les chercheurs ont également constaté que l'agent sera parfois utiliser « de plus haut », des mots tels que « le plus à gauche » pour exprimer, d'exprimer ces mots sont basés sur la position relative des coordonnées à deux dimensions, bien que travaille également dans cet environnement, Cependant, en raison de trop précis, une fois que l'agent de changement de la structure géographique, le système ne peut pas tourner et courir.

Pour résoudre ce problème, les chercheurs ont essuyés l'agent de contact dans un système de coordonnées absolu, qui est, chaque agent se trouvent à l'origine du système de coordonnées de son propre, et ne peuvent pas être partagées système de coordonnées, ils apprennent naturellement à utiliser plus certainement pour indiquer un attribut de couleur correspondante du repère.

L'agent peut être un homme de main droite de ses coéquipiers

Lorsque l'agent ne peut pas passer par l'échange de texte, et la nécessité d'agir dans un environnement simulé particulier, la formation peut être appliquée de manière égale. Les chercheurs ont démontré les circonstances particulières suivantes:

1. agent en indiquant les informations d'emplacement cible indiquant un autre agent;

2. Petit-agent de grande proximité de l'agent d'amorçage à la cible;

3. pousser petit agent sans fonction visuelle de grande proximité de l'agent à la cible.

À l'avenir, OpenAI veulent la machine à créer étroitement étroitement liée à leur propre expérience linguistique. Si l'on ajoute à cela la complexité de l'environnement en fonction des expériences et élargir le champ des activités de l'agent, et peut-être ils peuvent créer un nouveau langage expressif, présentant un sens plus riche.

Avec la complexité croissante du langage machine, comment les humains comprennent ce langage? Cette étude porte sur l'intelligence artificielle, la linguistique et les sciences cognitives. Le prochain projet, la coopération Ryan Lowe avec le plan Igor Mordatch avec des chercheurs de l'Université de Berkeley UC, que l'agent de communiquer avec l'agent anglophone, la langue de la machine créée pour l'homme à comprendre. Lei Feng réseau continuera à se concentrer.

La pétition des joueurs d'outre-mer « Jedi pour survivre, » le blocus des joueurs officiels chinois
Précédent
nation abandonnée: pas de citoyenneté, à terre get vie, que le statut de la personne est aussi humble!
Prochain
l'échange de renseignements de la machine d'une semaine: OPPO R17 et autre version publique de nouveaux appareils, une nouvelle gloire vivo première exposition
Nouvelle version de « Dragon » déclaration officielle fichier donné! 27 février Tencent vidéo l'ensemble du réseau radio indépendant
Entamer une fille étrange maison tard dans la nuit, tard dans la nuit île connotation réelle!
Rumeur: plaque lourde « Dark Soul » ou PS4 sera atterrissage mai
design blanc Evangile, avec son grand fixe jusqu'à à une minute de la figure.
« Mise à niveau des consommateurs Index résidents chinois (2018) » Sortie: ère « économie Lazy »
Recommandé 8 merveilleux film et le drame de la télévision, un regard sur Gong Dou étrangers
version réalité Japon « Rainbow City, l'homme le plus riche en Occident », clochard donnent loin d'un million de yens, comment il passera ......
Grand Dieu ligne chinoise | Alex Smola Amazon directeur d'apprentissage machine AWS à se joindre à l'horizon, la part de ces choses MxNet
Une seconde pour ouvrir l'URL cible, cette compétence pic favoris
Pas porno porno: os de poulet colorés avec des excréments, il écrire un livre, il est contre l'hypocrisie du monde
X23 vivo approche: la quatrième génération de la technologie des empreintes digitales de l'écran dans un spectacle