DOTA 5v5 AI n'est pas le point fort comment � la science �, mais plut�t comment � enseigner � les

Lei Feng r�seau par AI Technology Review: Nous savons tous d�j�, OpenAI de 5v5 DOTA AI "Cinq OpenAI" victoire humaine � nouveau.

5 ao�t dimanche apr�s-midi heure am�ricaine, le jeu de ligne Organisation OpenAI (OpenAI appel� � Cinq OpenAI de r�f�rence �) a r�alis� un total de quatre manches. Les cinq premiers tours de batte public compos� de l'�quipe de passants est de sept minutes pour briser les deux tours du milieu, sur la route Heights 9 minutes, 12 minutes pause de deux, le rapport de t�te 26: 4, on peut dire d'�tre compl�tement enroul�.

Trois jeux apr�s l'�v�nement principal, � OpenAI Cinq � contre quatre anciens joueurs professionnels (Blitz, Cap, embu�, Merlini) avec les joueurs professionnels actuels (MoonMeander) compos� de l'�quipe d'experts. Premi�re d�faite manches encore, 21 minutes de pause secondes Heights route, les joueurs humains jouent GG, le ratio de la t�te 39: 8. Les joueurs de deuxi�me homme jeu ont choisi plus de contr�le, style plus agressif de jeu, mais seulement adh�rer � 24 minutes, la t�te de 41:12. De cette fa�on, trois jeux du match ont �t� perdus.

Apr�s la deuxi�me course de ma�tre humain tour de batte, OpenAI CTO Greg Brockman avan�a � son tour d'embrasser cinq (anciens) compliments pro

Le r�sultat a �t�, est devenu le troisi�me divertissement Bureau tour de batte, le public � � OpenAI Cinq � a choisi cinq h�ros tr�s puissant, et elle a finalement laiss� les joueurs humains ont gagn�.

Mais en plus du score de jeu, la majorit� des chercheurs et des amateurs d'apprentissage de renforcement de l'intelligence artificielle de il y a une question profonde est, comment cette IA est form�.

Inutile de dire que la complexit� du jeu DOTA que d'aller, le retour est assez rare, m�me si elle est s�lectionn�e OpenAI ont d�velopp� � grande �chelle tr�s sophistiqu�e distribu�e PPO atteindre � rapide �, nous intuitivement peu convaincant � Tant qu'il y aura une formation ad�quate le temps peut apprendre si riche comportement de jeu ". Par exemple, tout d'abord, le travail d'�quipe � OpenAI Cinq � expos� sur Comme les humains distinction claire entre le noyau et le h�ros secondaire Par exemple, selon les chercheurs de OpenAI � Cinq OpenAI � choisira de jouer les montagnes de viande , Il suffit de dire deux choses que nous sommes tous les joueurs humains ont besoin de passer par une d�cision de politique consciente et la mise en uvre peut faire. Le renforcement apprentissage il y a une telle r�flexion de haut niveau maintenant? Probablement pas.

Ci-dessous ces jeux instantan�ment 5 est aussi m�rite d'�tre m�dit�e:

Apr�s 20 minutes de jeu, l'IA Lich voir les montagnes de viande. En fait, le jeu entier h�ros IA de temps en temps pour voir les montagnes de viande

la magie de l'ombre Blitz est AI Gank, avec des h�licopt�res d'ombre talisman place et deux IA de glace f�minin a des h�ros AOE � proximit� il y a une co�quipiers directe AI � la retraite. Explications sur l'�valuation spot � est tout simplement les objets d'un �tre humain de la violence. �

jour Blitz ou ombre c�t� luminosit� magique, autour du c�t� du bois � voir les yeux AI. Il convient de noter que cette fois le jour du c�t� de la route de moins de 2 tours ont �t� perdus, et ce cauchemar nuit oeil partie � brancher au cauchemar la nuit en dehors d'une route locale pr�s de la tour. La position des yeux peut �tre tr�s conservateur, tr�s �trange

AI vraiment rencontrer les mousquetaires donnent grand, plein de piton magique ombre de sang de Blitz �tait super - en fait, cette strat�gie est tr�s efficace, les batailles de l'�quipe du c�t� humain de la reine de glace est souvent les premiers gros canons avant la guerre a commenc� � groupe demi-sang puis commencer imm�diatement un groupe de combat tu�

22 minutes de glace AI f�tarde jusqu'� il y a quelques mains d'or, mais ne pas l'utiliser dans les trois prochaines minutes

Le renforcement paradigme d'apprentissage d�termine le � comportement peut aider � apporter de haute r�troaction � serait plus facile � apprendre, et complexe DOTA est que beaucoup de l'association entre le comportement et le r�sultat final du jeu semble aussi ambigu�, sont dans la plupart des cas vous pouvez lire le dernier mot peut affecter le comportement de l'homme lui-m�me ne peut le dire. M�me croire AlphaGo peut trouver une meilleure strat�gie dans l'auto-jeu r�p�t� en personne, ne croient pas n�cessairement que seul le jeu d'auto-DOTA dans un environnement complexe peut apprendre le positionnement, shunt, chair de poule, juste pour voir arriver montagnes de viande, les yeux d'insertion, etc. s�rie d'actes.

Avant la publication de certaines informations et combiner OpenAI � OpenAI Cinq � �quipe de d�veloppement dans les interviews du site de la concurrence, Lei Feng r�seau AI Technology Review a trouv� � l'�quivalent de 180 ann�es de clusters de calcul du temps de jeu � chaque journ�e de formation � en dehors, vous pouvez nous aider � mieux comprendre la mise en uvre sp�cifique AI traiter quelques indices. Par rapport � dire que ce sont des � conseils de recherche d'apprentissage de renforcement, � nous pensons que c'est un � conseils d'enseignement de l'homme �, par rapport au mod�le � OpenAI Cinq � de la formation dans leur comportement exploratoire que nous jugeons sens plus important L'homme a r�ussi avec succ�s leurs connaissances et de l'exp�rience pour enseigner le � OpenAI Cinq � .

Utilisez uniquement les r�sultats finaux de la comp�tition en tant que commentaires, trop rares, donc aussi OpenAI L'augmentation du nombre d'indicateurs communs d'�valuation de la performance des joueurs humains Tels que l'actif total, le nombre de victimes, morts, aide, chiffres et ainsi de suite le couteau. L'am�lioration de ces indicateurs apporteront �galement les commentaires pour am�liorer la victoire de jeu ou perdre ensemble pour promouvoir le mod�le d'apprentissage (apprentissage pour �viter un s�jour prolong� dans la zone non valide).
Mais en m�me temps afin d'�viter trop d'attention � ces AI biais� en faveur de la strat�gie � court terme des donn�es, OpenAI pas de commentaires sur les sp�cifications de conception bas�es sur � plus les meilleurs indicateurs de la valeur �, mais AI ne font qu'encourager les joueurs humains moyenne dans ces domaines . La conception intelligente peut aussi aider AI � apprendre diff�rents h�ros dans diff�rentes positions dans les combats en �quipe: En ce qui concerne le niveau moyen des joueurs humains, le noyau des armes � feu est un h�ros, devrait �tre un rendement �lev� de dommages et �lev� compl�ment, la t�te haute, � faible aide, faible comportement auxiliaire, la reine de la glace, il devrait positif faible, t�te basse, haute aide, le comportement auxiliaire �lev�. Des donn�es diff�rentes peuvent conduire indicateur de diff�rentes strat�gies d'action.
h�ros DOTA en plus de leur propre position, mais aussi la n�cessit� d'une coop�ration entre eux, comme assassiner a pris tour ensemble de la main. OpenAI n'a pas �t� con�u explicitement pour le canal de communication entre l'IA, maintenant ils ont con�u un nomm� Hyperparam'etres � esprit d'�quipe � de Cette valeur est la r�action entre 0-1 chaque h�ros soucieux de leur rapport de r�troaction individuel entre la r�troaction et l'ensemble de l'�quipe. Dans la formation OpenAI par recuit afin d'optimiser la taille de cette valeur particuli�re.
Vous souvenez peut-�tre, quand � OpenAI Five � vient de sortir, il ne supporte pas la montagne de viande. Peu apr�s le soutien des montagnes de viande, nous sommes tr�s int�ress�s par OpenAI ce qui avait �t� fait pour am�liorer l'�quipe. Les chercheurs du 5e site de jeu OpenAI donne la r�ponse: l'exploration normale est difficile � appara�tre cinq h�ros sont venus Roshan Roshan a alors frapp� la fosse pour obtenir la situation de r�troaction positive, de sorte qu'ils approche mod�le d'apprentissage est guid�, Dans le processus de formation pour mettre Roshan sang au hasard , Alors le sang est tr�s faible si vous rencontrez un h�ros de Roshan, vous pouvez facilement obtenir apparemment un retour �lev� dans le processus d'exploration, ce qui AI a commenc� � pr�ter attention � encourager Roshan . Mais alors que Roshan est pas toujours de se battre, le r�glage du volume sanguin al�atoire ne se sentira IA peut �tre jou� quand Roshan jouera.
Du point de vue de parler d'apprentissage � long terme, aussi longtemps que il y a assez de temps de formation pour explorer une vari�t� de comportements AI, les humains se sentent � l'aide de diverses op�rations de jeu AI ont finalement l'occasion d'apprendre (comme couper la jambe artificielle manger grande drogue, a �galement jou� ces viandes devant les montagnes), mais assez de temps pour faire l'IA, ne peut toujours pas former un apprentissage efficace. Ainsi, le comportement humain AI veulent apprendre rapidement, vous pouvez concevoir un certain nombre de commentaires positifs pour encourager l'apprentissage, et d'autre part, la situation peu fr�quente, il serait aussi normal que nous nous attendions mod�le d'apprentissage profondeur, l'IA ne sait pas comment traitement.
A propos de l'�quipement et les yeux, les chercheurs ont dit que les scripts OpenAI API actuels sont �crits par l'IA d'acheter, AI n'a pas besoin de choisir, surtout l'il, l'il est script en cours d'ensemble ach�tera aussi longtemps que le CD. Bien s�r, ce param�tre r�duit la difficult� de la formation, de sorte que l'IA profiter une tenue stable, elle apporte aussi une situation int�ressante au h�ros de soutien: en raison de l'il � acheter, ils occuperont la grille, t�t ou tard besoin pour effacer, Cela est devenu une force motrice les invitant � ins�rer les yeux ; En fait, si nous voulons vraiment des commentaires de conception � plug-eye �, l'action elle-m�me, les chercheurs ont trouv� OpenAI vraiment difficile de trouver des indicateurs quantitatifs yeux branchent bien ou non. Par cons�quent, cette conception est une solution tr�s simple et rapide.

Maintenant, savoir que le � enseignement � de ces OpenAI apr�s, puis revenir en arri�re et regarder les performances du jeu du � OpenAI Cinq � a �t� mentionn� pr�c�demment que semble plus raisonnable, plus intime il?

Vous pouvez dire que l'�quipe de d�veloppement � OpenAI Cinq � pens� plusieurs fa�ons d'encourager l'IA avec la strat�gie comme humaine et les op�rations jouer DOTA, mais n'a pas fait une limite sup�rieure claire sur la performance. Apr�s que les joueurs humains explorer le jeu depuis si longtemps, avec l'exp�rience humaine �viter rapide jeu inefficace de l'espace est certainement une bonne id�e. Dans cette perspective, le stade OpenAI � OpenAI Cinq � comme si le d�but AlphaGo, d'apprendre de jeu bas� humain pass�, essayez la mise � niveau et de l'innovation.

Ensuite, le syst�me continuera d'optimiser la face du service actif apr�s que les joueurs professionnels du tournoi international DOTA2 (TI), mais aussi sur la fa�on dont la performance, que maintenant clairement l'�volution globale (peut-�tre Master Edition) � OpenAI Cinq � et m�me supprimer toutes les contraintes compl�tement moi-m�me explorer � OpenAI Cinq � version z�ro � l'avenir s'il est possible? Nous verrons.

Lei Feng r�seau AI Technology Review rapports.

Route de la soie

Apprenez � conna�tre la Chine

DOTA 5v5 AI n'est pas le point fort comment � la science �, mais plut�t comment � enseigner � les