DOTA 5v5 AI n'est pas le point fort comment « la science », mais plutôt comment « enseigner » les

Lei Feng réseau par AI Technology Review: Nous savons tous déjà, OpenAI de 5v5 DOTA AI "Cinq OpenAI" victoire humaine à nouveau.

5 août dimanche après-midi heure américaine, le jeu de ligne Organisation OpenAI (OpenAI appelé « Cinq OpenAI de référence ») a réalisé un total de quatre manches. Les cinq premiers tours de batte public composé de l'équipe de passants est de sept minutes pour briser les deux tours du milieu, sur la route Heights 9 minutes, 12 minutes pause de deux, le rapport de tête 26: 4, on peut dire d'être complètement enroulé.

Trois jeux après l'événement principal, « OpenAI Cinq » contre quatre anciens joueurs professionnels (Blitz, Cap, embué, Merlini) avec les joueurs professionnels actuels (MoonMeander) composé de l'équipe d'experts. Première défaite manches encore, 21 minutes de pause secondes Heights route, les joueurs humains jouent GG, le ratio de la tête 39: 8. Les joueurs de deuxième homme jeu ont choisi plus de contrôle, style plus agressif de jeu, mais seulement adhérer à 24 minutes, la tête de 41:12. De cette façon, trois jeux du match ont été perdus.

Après la deuxième course de maître humain tour de batte, OpenAI CTO Greg Brockman avança à son tour d'embrasser cinq (anciens) compliments pro

Le résultat a été, est devenu le troisième divertissement Bureau tour de batte, le public à « OpenAI Cinq » a choisi cinq héros très puissant, et elle a finalement laissé les joueurs humains ont gagné.

Mais en plus du score de jeu, la majorité des chercheurs et des amateurs d'apprentissage de renforcement de l'intelligence artificielle de il y a une question profonde est, comment cette IA est formé.

Inutile de dire que la complexité du jeu DOTA que d'aller, le retour est assez rare, même si elle est sélectionnée OpenAI ont développé à grande échelle très sophistiquée distribuée PPO atteindre « rapide », nous intuitivement peu convaincant « Tant qu'il y aura une formation adéquate le temps peut apprendre si riche comportement de jeu ". Par exemple, tout d'abord, le travail d'équipe « OpenAI Cinq » exposé sur Comme les humains distinction claire entre le noyau et le héros secondaire Par exemple, selon les chercheurs de OpenAI « Cinq OpenAI » choisira de jouer les montagnes de viande , Il suffit de dire deux choses que nous sommes tous les joueurs humains ont besoin de passer par une décision de politique consciente et la mise en uvre peut faire. Le renforcement apprentissage il y a une telle réflexion de haut niveau maintenant? Probablement pas.

Ci-dessous ces jeux instantanément 5 est aussi mérite d'être méditée:

Après 20 minutes de jeu, l'IA Lich voir les montagnes de viande. En fait, le jeu entier héros IA de temps en temps pour voir les montagnes de viande

la magie de l'ombre Blitz est AI Gank, avec des hélicoptères d'ombre talisman place et deux IA de glace féminin a des héros AOE à proximité il y a une coéquipiers directe AI à la retraite. Explications sur l'évaluation spot « est tout simplement les objets d'un être humain de la violence. »

jour Blitz ou ombre côté luminosité magique, autour du côté du bois à voir les yeux AI. Il convient de noter que cette fois le jour du côté de la route de moins de 2 tours ont été perdus, et ce cauchemar nuit oeil partie à brancher au cauchemar la nuit en dehors d'une route locale près de la tour. La position des yeux peut être très conservateur, très étrange

AI vraiment rencontrer les mousquetaires donnent grand, plein de piton magique ombre de sang de Blitz était super - en fait, cette stratégie est très efficace, les batailles de l'équipe du côté humain de la reine de glace est souvent les premiers gros canons avant la guerre a commencé à groupe demi-sang puis commencer immédiatement un groupe de combat tué

22 minutes de glace AI fêtarde jusqu'à il y a quelques mains d'or, mais ne pas l'utiliser dans les trois prochaines minutes

Le renforcement paradigme d'apprentissage détermine le « comportement peut aider à apporter de haute rétroaction » serait plus facile à apprendre, et complexe DOTA est que beaucoup de l'association entre le comportement et le résultat final du jeu semble aussi ambiguë, sont dans la plupart des cas vous pouvez lire le dernier mot peut affecter le comportement de l'homme lui-même ne peut le dire. Même croire AlphaGo peut trouver une meilleure stratégie dans l'auto-jeu répété en personne, ne croient pas nécessairement que seul le jeu d'auto-DOTA dans un environnement complexe peut apprendre le positionnement, shunt, chair de poule, juste pour voir arriver montagnes de viande, les yeux d'insertion, etc. série d'actes.

Avant la publication de certaines informations et combiner OpenAI « OpenAI Cinq » équipe de développement dans les interviews du site de la concurrence, Lei Feng réseau AI Technology Review a trouvé « l'équivalent de 180 années de clusters de calcul du temps de jeu à chaque journée de formation » en dehors, vous pouvez nous aider à mieux comprendre la mise en uvre spécifique AI traiter quelques indices. Par rapport à dire que ce sont des « conseils de recherche d'apprentissage de renforcement, » nous pensons que c'est un « conseils d'enseignement de l'homme », par rapport au modèle « OpenAI Cinq » de la formation dans leur comportement exploratoire que nous jugeons sens plus important L'homme a réussi avec succès leurs connaissances et de l'expérience pour enseigner le « OpenAI Cinq » .

  • Utilisez uniquement les résultats finaux de la compétition en tant que commentaires, trop rares, donc aussi OpenAI L'augmentation du nombre d'indicateurs communs d'évaluation de la performance des joueurs humains Tels que l'actif total, le nombre de victimes, morts, aide, chiffres et ainsi de suite le couteau. L'amélioration de ces indicateurs apporteront également les commentaires pour améliorer la victoire de jeu ou perdre ensemble pour promouvoir le modèle d'apprentissage (apprentissage pour éviter un séjour prolongé dans la zone non valide).

  • Mais en même temps afin d'éviter trop d'attention à ces AI biaisé en faveur de la stratégie à court terme des données, OpenAI pas de commentaires sur les spécifications de conception basées sur « plus les meilleurs indicateurs de la valeur », mais AI ne font qu'encourager les joueurs humains moyenne dans ces domaines . La conception intelligente peut aussi aider AI à apprendre différents héros dans différentes positions dans les combats en équipe: En ce qui concerne le niveau moyen des joueurs humains, le noyau des armes à feu est un héros, devrait être un rendement élevé de dommages et élevé complément, la tête haute, à faible aide, faible comportement auxiliaire, la reine de la glace, il devrait positif faible, tête basse, haute aide, le comportement auxiliaire élevé. Des données différentes peuvent conduire indicateur de différentes stratégies d'action.

  • héros DOTA en plus de leur propre position, mais aussi la nécessité d'une coopération entre eux, comme assassiner a pris tour ensemble de la main. OpenAI n'a pas été conçu explicitement pour le canal de communication entre l'IA, maintenant ils ont conçu un nommé Hyperparam'etres « esprit d'équipe » de Cette valeur est la réaction entre 0-1 chaque héros soucieux de leur rapport de rétroaction individuel entre la rétroaction et l'ensemble de l'équipe. Dans la formation OpenAI par recuit afin d'optimiser la taille de cette valeur particulière.

  • Vous souvenez peut-être, quand « OpenAI Five » vient de sortir, il ne supporte pas la montagne de viande. Peu après le soutien des montagnes de viande, nous sommes très intéressés par OpenAI ce qui avait été fait pour améliorer l'équipe. Les chercheurs du 5e site de jeu OpenAI donne la réponse: l'exploration normale est difficile à apparaître cinq héros sont venus Roshan Roshan a alors frappé la fosse pour obtenir la situation de rétroaction positive, de sorte qu'ils approche modèle d'apprentissage est guidé, Dans le processus de formation pour mettre Roshan sang au hasard , Alors le sang est très faible si vous rencontrez un héros de Roshan, vous pouvez facilement obtenir apparemment un retour élevé dans le processus d'exploration, ce qui AI a commencé à prêter attention à encourager Roshan . Mais alors que Roshan est pas toujours de se battre, le réglage du volume sanguin aléatoire ne se sentira IA peut être joué quand Roshan jouera.

  • Du point de vue de parler d'apprentissage à long terme, aussi longtemps que il y a assez de temps de formation pour explorer une variété de comportements AI, les humains se sentent à l'aide de diverses opérations de jeu AI ont finalement l'occasion d'apprendre (comme couper la jambe artificielle manger grande drogue, a également joué ces viandes devant les montagnes), mais assez de temps pour faire l'IA, ne peut toujours pas former un apprentissage efficace. Ainsi, le comportement humain AI veulent apprendre rapidement, vous pouvez concevoir un certain nombre de commentaires positifs pour encourager l'apprentissage, et d'autre part, la situation peu fréquente, il serait aussi normal que nous nous attendions modèle d'apprentissage profondeur, l'IA ne sait pas comment traitement.

  • A propos de l'équipement et les yeux, les chercheurs ont dit que les scripts OpenAI API actuels sont écrits par l'IA d'acheter, AI n'a pas besoin de choisir, surtout l'il, l'il est script en cours d'ensemble achètera aussi longtemps que le CD. Bien sûr, ce paramètre réduit la difficulté de la formation, de sorte que l'IA profiter une tenue stable, elle apporte aussi une situation intéressante au héros de soutien: en raison de l'il à acheter, ils occuperont la grille, tôt ou tard besoin pour effacer, Cela est devenu une force motrice les invitant à insérer les yeux ; En fait, si nous voulons vraiment des commentaires de conception « plug-eye », l'action elle-même, les chercheurs ont trouvé OpenAI vraiment difficile de trouver des indicateurs quantitatifs yeux branchent bien ou non. Par conséquent, cette conception est une solution très simple et rapide.

Maintenant, savoir que le « enseignement » de ces OpenAI après, puis revenir en arrière et regarder les performances du jeu du « OpenAI Cinq » a été mentionné précédemment que semble plus raisonnable, plus intime il?

Vous pouvez dire que l'équipe de développement « OpenAI Cinq » pensé plusieurs façons d'encourager l'IA avec la stratégie comme humaine et les opérations jouer DOTA, mais n'a pas fait une limite supérieure claire sur la performance. Après que les joueurs humains explorer le jeu depuis si longtemps, avec l'expérience humaine éviter rapide jeu inefficace de l'espace est certainement une bonne idée. Dans cette perspective, le stade OpenAI « OpenAI Cinq » comme si le début AlphaGo, d'apprendre de jeu basé humain passé, essayez la mise à niveau et de l'innovation.

Ensuite, le système continuera d'optimiser la face du service actif après que les joueurs professionnels du tournoi international DOTA2 (TI), mais aussi sur la façon dont la performance, que maintenant clairement l'évolution globale (peut-être Master Edition) « OpenAI Cinq » et même supprimer toutes les contraintes complètement moi-même explorer « OpenAI Cinq » version zéro à l'avenir s'il est possible? Nous verrons.

Lei Feng réseau AI Technology Review rapports.

Malheureuse auteur voler les utilisations des cours d'eau de la tour Description détaillée, plus difficile retour de vent de face
Précédent
Trésor fille Cameron « Une Lita » grande technologie de mise à niveau, la capture de mouvement un autre des effets visuels très innovants
Prochain
Vans et 7 déclaration conjointe? chaussure populaire boutique Sole Pour activer Pop-Up Store à Los Angeles!
AMG a ouvert dans la neige est une sorte d'expérience?
Jin plein écran pour entrer en Thaïlande, Thai populaire « actrice » forte adhésion
cadres de Millet fait l'éloge caméra série Huawei P difficile, divulguer ou mil neuf Pro version sera disponible!
Vulnérabilités = creuser l'exploitation minière? Ils ont organisé une mesure publique pour la sécurité de la chaîne bloc communautaire
Le riz rouge redmi évaluation de la Note 7 expérience: redéfinie mille roi machine
Dieu voiture SUV grand espace de profil élevé, en fait, non seulement L Tiguan
VLONE Londres limitée en dehors de la boutique rapide! Mettre en place un défilé de mode de la rue en direct
Ukyo Tachibana combattants forts encore fort importante nouvelle version est résolu
la plus grande catastrophe de la mine d'argent de la nation: 50 morts et de blessés! étape de fonds de private equity sur le mien, 4 millions de personnes sont blessées
Huawei P30 série à partir sur les marchés d'outre-mer, le classement post-imagerie 112 points Pa nouveau DxO!
super vie, vue double largeur photo intéressante: Asus puissance de Dieu évaluation 4 expérience