AI comptent sur plus vite et plus fort? La r�ponse est: la curiosit�

[R�seau nuage de chasse (Micro Signal :)] 7 Novembre rapport (compil�: Halcyon)

L'article a commenc�, d'abord � jeter une question: tous les jeux vid�o, monomaniaque en elle, vous trouverez qu'il n'a pas emp�ch�, quelles sont les causes?

Ce probl�me peut �tre un peu large, je ne peux pas donner une r�ponse d�finitive. Mais si vous voulez prendre un nouvel emploi, ou de jouer une s�rie de mises � jour somme, l'explication la plus simple est que la � curiosit� � - juste pour voir ce qui se passe � c�t�. Il se trouve que les jeux vid�o quand l'intelligence artificielle dans la direction, la curiosit� est une puissance tr�s efficace.

Une �tude de la firme de recherche � but non lucratif de l'intelligence artificielle OpenAI a publi� cette semaine par une curieuse interpr�tation de l'agent AI comment surmonter le jeu Atari 1984 classique La Revanche de Montezuma. La revanche de Ma�tre Montezuma consid�r� comme un grand pas en avant dans l'intelligence artificielle, mais ne peut �tre �gal au rythme des �tapes Go ou Dota 2. soci�t� d'intelligence artificielle de Google DeepMind2015, si elle est adopt�e AI expliquer la profondeur de l'apprentissage dans beaucoup score de jeu Atari, a battu un joueur fort humain, la vengeance de Montezuma est le seul score du match 0 l'algorithme n'a pas r�ussi � apprendre � jouer � ce jeu.

La raison ne correspond pas � la grande difficult� des mensonges de jeu dans son mode de fonctionnement et l'agent AI apprentissage de la mani�re, il r�v�le aussi l'existence de l'apprentissage automatique des spots aveugles.

Pour ma�triser l'agent AI jeux vid�o de jeu, n�cessite g�n�ralement l'utilisation de m�thodes de formation am�lior�es d'apprentissage. Dans cette formation, l'agent sera plac� dans le monde virtuel, et parce que certains des r�sultats obtenus r�compense (comme fraction croissante), ou �tre puni (comme la perte d'une vie). AI Agent d�marrer des jeux de lecture al�atoire, et peut apprendre � am�liorer leurs tactiques apr�s essais et erreurs. Apprentissage par renforcement est souvent consid�r�e comme un moyen cl� pour construire des robots intelligents.

Le probl�me de la turista est qu'il ne fournit pas d'incitations pour l'agent r�guli�rement AI. Ceci est un jeu de puzzle, les joueurs doivent explorer la pyramide souterraine, �viter les pi�ges et ennemis, tout en collectant les cl�s des portes de d�verrouillage et des objets sp�ciaux. Si vous �tes de formation d'agent AI pour surmonter le jeu, il peut donner certaines incitations en vivant � travers les diff�rentes salles et r�cup�rer les cl�s. Mais comment voulez-vous lui apprendre � sauver d'autres �l�ments cl�s, et d'utiliser ces �l�ments pour surmonter les pi�ges et terminer le niveau il?

La r�ponse est: la curiosit�.

Dans l'�tude OpenAI, ils r�compens�s non seulement � cause de l'agent pour passer le pic, mais aussi d'explorer nouvelle section de la pyramide. La curiosit� d'explorer de nouvelles plaques est une grande puissance, a �galement contribu� � l'agent que la performance humaine dans le jeu, neuf points de contr�le dans le score moyen robot de 10000 (le score humain moyen 4000). OpenAI dit en un seul passage, l'agent m�me � travers le premier obstacle.

OpenAI de Harrison Edwards a dit The Verge: � Nous avons d�velopp� un peut explorer beaucoup de place, obtenir beaucoup de r�compenses, mais aussi parfois franchir le premier obstacle du syst�me. � Ajoutant que, semblable � d'autres niveaux du jeu avec le premier obstacle, jeu de jeu � est juste une question de temps. �

Capture "NOISY TV PROBL�ME"

laboratoire OpenAI n'est pas la premi�re tentative de cette approche, les chercheurs d'Amnesty International depuis des d�cennies ont utilis� le concept de � curiosit� � comme une incitation. Avant qu'ils doivent appliquer cette Revanche de Montezuma, mais sans l'aide de l'intelligence artificielle pour apprendre de l'exemple de l'�tre humain, il ne serait pas un tel succ�s.

Cependant, en d�pit de la th�orie g�n�rale ici, il a �t� mis en place, mais pour construire une solution sp�cifique reste difficile. Par exemple, utile que dans l'apprentissage de certains types de jeux bas�s sur la curiosit� pr�dit. Il convient � ce genre de jeu Mario, au cours du jeu pour explorer un grand espace, jeu multi-niveaux, et rempli de monstres jamais vus auparavant. Mais pour ce simple jeu Pong, l'agent AI plus dispos� � combattre une guerre prolong�e, pas vraiment battu leurs adversaires. (Peut-�tre parce que le chemin pour gagner le jeu que la balle de jeu meilleure pr�diction.)

Une autre exp�rience � probl�me Noisy TV �, l'exp�rience a �t� programm� pour chercher de nouvelles exp�riences agent de l'IA pour vous faire dorloter dans un motif al�atoire, tel qu'un t�l�viseur � l'�coute au bruit statique. En effet, le sentiment d'agent de � int�ressant � et � nouvelle � vient de leur capacit� � pr�dire l'avenir. Avant de prendre des mesures, ils pr�dire la situation apr�s le match. S'ils devinent bien, ils ont probablement vu ce niveau avant. Ce m�canisme est appel� � erreur de pr�diction. �

Mais parce que le bruit statique est impr�visible, les exp�riences agent de AI est plac� dans la t�che du labyrinthe est de trouver l'objet de plus haute r�compense. Il y a aussi un environnement de t�l�vision, un canal al�atoire peut �tre convertie sur la t�l�vision avec t�l�commande, zappant parce que chaque r�sultat est impr�visible, de fa�on surprenante, le visage de la t�l�vision un (ou de stimulation similaire impr�visible), un agent AI devient tr�s confus. OpenAI cette question avec l'homme accro � la comparaison des machines � sous, les gens ne savent pas ce qui va arriver, donc ce n'est pas pr�t � partir.

La nouvelle �tude OpenAI AI pr�dire l'avenir en changeant la fa�on �lud� adroitement la question. M�thode pr�cise (appel�e Distillation r�seau al�atoire) est tr�s complexe, Edwards et son coll�gue Yuri Burda �tre interpr�t� comme la mise des informations cach�es dans chaque �cran du jeu, en attendant de creuser l'intelligence artificielle. Les t�ches cach�es sont al�atoires, sans beaucoup de sens (Edwards sugg�r�, par exemple, � De quelle couleur est le coin sup�rieur gauche de l'�cran? �), Mais peut motiver les agents continuent d'explorer le jeu et ne pas laisser trop facilement influenc� par le bruit du pi�ge de la t�l�vision impact.

Il convient de noter que cette incitation ne n�cessite pas beaucoup de calcul, il est tr�s important. m�thode d'apprentissage par renforcement d�pend de grandes quantit�s de donn�es pour former l'agent AI, de sorte que les besoins de formation de chaque �tape est achev�e le plus rapidement possible.

Ing�nieur logiciel Arthur Juliani de l'unit�, est �galement un expert dans l'apprentissage de la machine, dit-il, c'est le point culminant des mensonges de travail de recherche OpenAI. Juliani dit The Verge: � m�thode OpenAI utilis�e est tr�s simple, mais la m�thode tr�s efficace pour explorer le pass� Tout au long du jeu, plus compliqu�, et essentiellement le nombre de r�sultats impressionnants n'a pas apport� au cercle de la science et de la technologie, la comparaison, OpenAI. la m�thode beaucoup plus simple ".

Juliani repr�sente, compte tenu de la similitude entre les diff�rents niveaux de la turista, courant OpenAI sensiblement �quivalent au travail pour surmonter l'ensemble du jeu. Mais il a ajout�: � En fait, ils ne peuvent pas faire en sorte que chacun puisse franchir le premier obstacle, ce qui signifie qu'il ya encore des d�fis. � Juliani OpenAI veulent savoir si la m�thode convient pour les jeux 3D, jeux 3D par rapport � la difficult� de d'autres possibles, plus grandes caract�ristiques visuelles plus subtiles, et le jeu en vue � la premi�re personne obscurci la majeure partie de l'interface.

� Jeu 3D, la n�cessit� d'explorer les sc�narios, les diff�rences entre les diff�rentes parties de l'environnement est plus subtil, la performance r�elle de cette m�thode ne peut pas �tre tr�s bon �, a d�clar� Juliani.

curiosit�

Mais pourquoi nous avons d'abord besoin d'avoir la curiosit� de la grippe aviaire il? Amnesty International avec curiosit�, comme les humains, il est facile de se livrer � un motif al�atoire.

La principale raison est la curiosit� aide l'auto-apprentissage informatique.

Maintenant, la machine largement utilis� les m�thodes d'apprentissage peut �tre largement divis� en deux camps: d'abord, l'apprentissage de la machine en naviguant sur de grandes quantit�s de donn�es, et de calculer le mod�le peut �tre appliqu� � des probl�mes similaires, d'autre part, la machine est mise dans l'environnement, l'utilisation de ferraillage m�thode d'apprentissage pour obtenir un certain succ�s, pour obtenir la r�compense, qui est sous la forme d'incitations pour promouvoir la stimulation de l'apprentissage de la machine.

Les deux m�thodes sont valables pour une t�che sp�cifique, mais pas tout � fait sur la machine elle-m�me, si elle est marqu�e des donn�es de formation ou de l'environnement virtuel fonction design award, ne peut pas faire sans beaucoup de travail. En pr�voyant l'exploration des syst�mes d'intelligence artificielle des incitations propres, un travail est �limin�, comme avant que les humains ne ont pas besoin de d�penser trop d'�nergie sur l'apprentissage de la machine, sous les incitations de relance, une machine capable d'apprendre ind�pendant.

OpenAI d'Edwards et Burda a dit qu'une telle curiosit� qu'un programme de conception et de d�veloppement du syst�me d'apprentissage informatique pour fonctionner dans le monde r�el est beaucoup mieux. Apr�s tout, avec la revanche de Montezuma, comme dans la vraie vie, souvent avec peu de r�compense imm�diate, nous avons tous besoin de travailler de longues heures, d'apprentissage et d'exploration afin d'�tre r�compens�s. La curiosit� peut nous aider � aller de l'avant, l'ordinateur peut �tre en mesure d'aider.

Route de la soie

Apprenez � conna�tre la Chine

AI comptent sur plus vite et plus fort? La r�ponse est: la curiosit�

Capture "NOISY TV PROBL�ME"

curiosit�