Récemment abus fini OpenAI Cinq joueurs Dota, mais aussi l'histoire derrière?

évaluation ludique produite, reproduite, s'il vous plaît indiquer la source.

Hier matin, OpenAI Cinq sur la bonne voie à l'abus de fin Dota2 le côté humain de la diffusion de nouvelles comme une traînée de poudre. Y compris les équipes semi-professionnelles et des équipes amateurs des anciens athlètes professionnels et actifs pro composé de la composition du public, le côté humain premier enfant avec le sang 4 manches, enfin une bataille de la dignité est dans le parti AI à un pré-sélectionné en ligne après la lose, en jouant ses propres cinq paires de lignes d'escouade à peine forte à la victoire.

Il est pas exagéré de dire que cette fois le côté humain, a subi une défaite écrasante.

Dota2 en même temps que l'un des plus populaires et les plus complexes jeux électroniques sportifs, les joueurs professionnels les plus talentueux du monde et d'autres joueurs par jour et de formation de nuit à concourir pour un prize pool annuel de 40 M $, qui jouent tous dans le jeu actuel du monde bonus est le plus haut niveau.

Cependant, la différence est l'intelligence humaine et artificielle OpenAI Cinq sont avec leur jeu contre tous les jours, le jour ou même jouer deux millions de jeux. Selon les développeurs, c'est un « auto-jeu (auto-play) ». la formation de haute intensité sur la machine et non un fardeau et les impacts négatifs, il ne continuera à devenir plus intelligent dans le combat réel.

Dota AI Qu'est-ce que ce n'est pas la même chose?

Bien que les deux appartiennent à l'intelligence artificielle, mais OpenAI Cinq différentes avant et la maîtrise des AlphaGo d'échecs, pour eux au-delà de l'être humain dans « StarCraft » ou « Dota2 » Ce jeux vidéo complexes, est une étape importante dans l'histoire du développement AI.

AlphaGo a balayé tour Go humain a causé une grande sensation

Et par rapport au jeu sur le plateau, Dota2 comme plus qu'un jeu de combat 5V5, chaque joueur doit contrôler un héros, ce qui conduit seuil pour commencer et le besoin d'être trop haute maîtrise AI standard.

Calcul de commande à haute résistance:

DOTA2 run On suppose à 30 images par seconde, le temps de jeu moyen est de 45 minutes. Ainsi, un jeu là-bas 80000 peut fonctionner. Et la plupart des opérations telles que le héros en mouvement, affecter le fonctionnement de chaque trame de toute la situation de guerre est relativement faible, mais comme un retour à la ville et d'autres actes sont le résultat de la situation de guerre au niveau tactique.

Si le fonctionnement de l'intelligence artificielle de presque tous les quatre, vous devez utiliser un jeu jusqu'à 20.000 étapes. Et que chaque étape à travers les résultats des opérations logiques stratégiques. Si vous avez pas de concept devant 20.000 étapes, cet exemple, les échecs sont généralement en mesure de mettre fin à la 40 étapes « bataille », mais vous devez aller 150 marches. Par comparaison, la quantité de calcul Dota2 est vraiment beaucoup plus que l'ancien.

Limité états visuels:

situation de guerre Dota est enveloppée dans le brouillard de la guerre, les unités et les bâtiments peuvent être vus autour de la zone, la zone noire des ennemis cachés et stratégie frétillant. Les joueurs doivent tirer des conclusions sur la base de ces données incomplètes, simulent l'adversaire peut faire, et faire des plans spécifiques. À ce stade, les échecs et les informations de la carte d'échecs est complètement exposé.

espace d'action continue de grande dimension:

En Dota, chaque héros peut prendre des dizaines d'action, beaucoup d'action ou pour une autre unité ou un emplacement pour le sol. Nous chaque héros espace discret pour 170.000 actions possibles (pas toutes les actions est valable, comme l'utilisation d'un refroidissement des compétences), en moyenne chaque action, il y aura 1000 une action efficace. Mais pour les échecs et les dames, ce chiffre est seulement 35 et 250, un écart énorme.

Espace visuel continu-dimensionnelle:

DOTA est un jeu pour participer à une grande carte dynamique, comprend dix héros, des dizaines de bâtiments, des dizaines de fonctionnalités de jeu NPC et variés, tels que les arbres, les runes, et d'autres domaines. OpenAI Cinq modèles observés jeu Dota par API BOT état Valve est 20000 (la plupart du temps à virgule flottante), qui est toutes les informations un accès personne peut. L'échiquier 70 est représenté par environ (six types de panneaux et un petit 8x8 damier), environ 400 carte de go (19x19 type d'un panneau de bloc).

Dota a développé plus d'une décennie, les jeux logiques réalisés par des centaines de milliers de lignes de code. Chaque exécution a besoin millisecondes, et les échecs ou les dames seulement les moteurs seulement nanosecondes. Et sera mis à jour toutes les deux semaines sur le jeu, tout l'environnement est en constante évolution. Tous ces coûteux, complexes, variés, des algorithmes massifs faire OpenAI Cinq dû utiliser un moyen plus efficace d'apprendre le jeu mieux.

Alors OpenAI Cinq a son propre ensemble d'algorithmes d'apprentissage

OpenAI Cinq systèmes utilisent l'optimisation de la stratégie proximale extrêmement complexe (optimisation des politiques proximaux). Cela comprend OpenAI Cinq et avant OpenAI 1c1 BOT « self-jeu » tout approche d'un paramètre aléatoire, au lieu d'utiliser la recherche ciblée ou la lecture de la race humaine pour démarrer.

Améliorer l'efficacité dans le système avant et après les deux est énorme

Les chercheurs croient généralement que le développement nécessite une longue période de progrès sur la base, tels que les différents niveaux, et renforcer l'apprentissage. Le OpenAI Five n'a pas encore joué une véritable force, mais aussi besoin d'avoir au moins un moyen raisonnable d'explorer pleinement fonctionnel.

La version actuelle de OpenAI Cinq pour décider de tuer l'ennemi (dernier percutant), la priorité cible et les stratégies professionnelles de match. Parce qu'il faut du temps pour l'équipe de pousser la tour, afin d'obtenir un rendement stratégique à long terme, tels que le contrôle de la carte, etc., ont souvent besoin de sacrifier les rendements à court terme, tels que l'économie agricole. Ceci est en effet une preuve du fait que AI besoin de prendre le temps d'être à l'écoute, mais ne vous inquiétez pas, AI a un ensemble pour leur processus d'apprentissage.

Structure du modèle (structure modèle):

Cinq OpenAI espace utilisé pour l'observation et des opérations spatiales de l'interaction, le monde du jeu Dota comme une forme contenant des données 20000, et en émettant des huit valeurs de dénombrement (valeurs d'énumération) contient la forme de prendre des mesures. Les différentes opérations, le codage aura une incidence sur l'action des différents rôles. Comme indiqué plus haut, l'ordre d'attaque d'une pluralité d'éléments pouvant être sélectionnés à échelonnement.

Ce système est un endroit que vous pouvez continuer à apprendre le manque d'action originale. Par exemple, AI ne démarre pas de la « gamme de blessures subies zone », mais réelle à quelques reprises quand ils souffrent de telles blessures, aura l'initiative de sortir de cette zone (échapper non).

Exploration (Exploration):

Ce système permet à l'AI a une forte capacité d'auto-apprentissage. Quand ils ont commencé à se perdre dans une grande carte vierge, seulement libre d'errer, toutes sortes de mort bizarre. Peu à peu, ils ont commencé à apprendre à éviter, les dommages, apprendre à rune peut leur apporter un gain, chasseurs de têtes en bas de la tour peut supprimer l'autre côté, le magasin peut magasiner pour un meilleur équipement, et un groupe de cinq personnes célibataires que la guerre ont poussé beaucoup plus facile à la tour de construction avantages et ainsi de suite. l'exploration continue laisser l'IA fertile constamment leur force, ils lentement à part entière.

Coordination (Coordination):

Cinq OpenAI aucun esprit humain est donc la communication, le travail d'équipe est souvent ce que nous appelons l ' « esprit d'équipe » est contrôlée par des paramètres. Le travail d'équipe allant de 0-1, dans lequel devrait se préoccuper chaque héros contrôlé par l'IA sur l'étendue de son état de développement de l'individu, plutôt que violemment à la moyenne d'une équipe.

Rapide (rapide):

Devant plusieurs systèmes est encore un jeu pour quelques héros à former, et le système peut être décrit comme une salle de gym pour une personne seule. AI se conduire dans cet environnement concurrentiel pour se renforcer, optimiser en permanence le nud existant. Imaginez un monde extérieur expert capable de dépassement de soi, et ce processus est continu, sans interruption, OpenAI Cinq professionnalisme peut réaliser dans un court laps de temps n'est pas une chose naturelle incroyable.

bilan remarquable

Jusqu'à présent, OpenAI Cinq a été impliqué dans beaucoup de jeu réel (des restrictions du système de concurrence bien sûr), voici cinq équipes à titre d'exemple:

1. l'équipe du personnel OpenAI: 2500 MMR (46%),

2. La sélection des employés pour regarder le match du public des joueurs: 4000-6000 ROR (90% -99%)

4. DLF Valve: 2500-4000 ROR (46% -90%),

5. Équipe amateur: 4200 MMR (93%),

6. équipe semi-professionnelle: 5500 MMR (percentile 99e).

Note: Le pourcentage est au-dessus des joueurs de niveau moyen des points Rank sont situés, ne gagne pas.

La concurrence il n'y aura pas du jour au lendemain, Version 23 Avril est la première ligne de la prévision de la version de script AI, version 1 équipe tire 15 mai et gagnez un jeu, perdre un jeu, la version décisive du 6 Juin mieux que les trois précédentes équipes, et alors que les résultats du concours pour la quatrième et la cinquième équipe, était initialement prévu à perdre mal, mais OpenAI Cinq effectivement gagné les deux premiers dans les trois premiers matchs, les résultats sont très surprenants!

Les analystes ciblés jeu AI ont observé une intention stratégique claire:

Tout d'abord, ils sacrifier les avantages de la route en faveur de la suppression de la route de la supériorité de l'ennemi, ce qui oblige le parti à un désavantage pour défendre du mal. Cette stratégie a l'équipe professionnelle et humaine considérable sur une longue période d'exercice pratique que croître jusqu'à présent, alors que l'AI a rapidement appris. En second lieu, quand l'IA Gank acte antérieur net, un but rapidement. Retirez l'ennemi dans le temps avant que le héros ennemi après être venu rapidement gagné le soutien de ses tours coéquipiers.

Encore une fois, AI et même certains non efficace de saisir les ressources pour les aider au début héros plus d'expérience pour les aider à grandir plus vite et d'aller soutenir la hiérarchie de domination de l'aile, et tirer parti de cet avantage par compétence et niveau. Cette technique peut effectivement attraper l'outsider d'erreur pour établir rapidement la supériorité, mais aussi plus susceptibles de faire des erreurs. Mais pour haute précision AI, le programme strict de la logique de calcul est bonne.

Après le match à la fois humain et AI ont chacun remporté un trophée en reconnaissance de

En comparant ces ci-dessus, nous avons probablement appris OpenAI Cinq avantages uniques, ils rigoureux, la technologie, la diligence, la science, et il semble que l'évolution de l'intelligence qui leur sont liées peuvent être placés dans le corps. Mais inévitablement certains disent en termes généraux, nous pouvons souhaiter AI et la condition humaine Dota2 de jeu réel, revenez à faire une comparaison.

AI et de la différence humaine lors de la lecture de Dota

OpenAI Cinq mêmes droits peuvent accéder à des jeux et des joueurs ordinaires, est rien de moins qu'un héros, des soldats, des lignes, des tours, etc. que la tête. Mais nous devons ouvrir les humains manuellement dans le menu correspondant peut noter que certaines informations ont dû fermer après avoir lu, alors que l'IA est pas nécessaire de passer le temps.

AI fois chaque minute des instructions 150-170 (théoriquement atteindre 450 fois par 4). Pour les joueurs qui ont été Dota2 de la conversation, c'est l'état de jeu lorsque parfait, mais il est pour OpenAI Cinq choses peu trivial Bale. Le temps de réaction, le temps de réponse moyen OpenAI Cinq de 80 ms, est mieux que la partie humaine de celui-ci.

Bien que veut pas admettre, mais l'avenir de la grippe aviaire est probable que nous vous présentons notre plus envie de voir jeu de haute qualité

La différence de performance est particulièrement important dans 1c1 (généralement bot temps de réaction à 67 ms), mais cela est relativement environnement concurrentiel équitable, il a donc été d'apprendre et de l'adapter au robot. Des dizaines de robots pro bot de prendre 1c1 méthode de formation de la ligue l'an dernier dans les derniers mois de Ti. Ne pensez pas que votre ordinateur aura une routine fixe, leur rythme plus rapide et une forte capacité d'apprentissage, et aujourd'hui vous vous situez dans la rivière à l'aide du soldate de marcher dedans, il alertera le prochain jeu, ou même d'appliquer leurs connaissances .

équipes OpenAI Cinq, leurs mains tenant un joueur champion de battement portable l'année dernière dans le 1V1 arène

résumé

Cinq OpenAI résultats obtenus quelque chose à être fiers bien sûr, mais maintenant il est pas parfait. Le match d'hier matin, en fait, il y a beaucoup de restrictions, telles que l'IA ne peut être maîtrisé que 18 héros, les unités invoquées, les illusions ne peuvent pas apparaître, des épées, des bouteilles ne peuvent pas être utilisés, mais ils ont encore besoin de cinq messager invincible. Cependant, OpenAI Cinq officiels ont également dit qu'ils sont le temps de réponse AI de 80 ms à 200 ms, et ne tenaient pas compte pour beaucoup moins cher via des puces d'ordinateur.

Aujourd'hui OpenAI Cinq espoir dans la prochaine campagne Ti8, leur objectif est de faire tomber les pros du top. S'ils peuvent vraiment continuer à renforcer ses algorithmes existants pour atteindre cet objectif, il peut vraiment prouver aujourd'hui Amnesty International a développé à un niveau ne doit pas être sous-estimé les gens ordinaires. Dota2 à ce complexe peut être considéré comme jeu fastidieux, par exemple, pour l'IA, il est difficile de traverser les montagnes, mais pas nécessairement réalisable.

Plus dernière évaluation du jeu, s'il vous plaît attention à jouer l'évaluation de micro-blogging, voici le dernier chef-d'uvre de l'intelligence, le plus guide du consommateur faisant autorité.

Bénéfices des erreurs cognitives des armes plus grandes que la plupart des joueurs de bijoux
Précédent
Li Bai, le nouveau roi de gloire à la peau, trésor national commun, l'introduction de la calligraphie authentique peau libre!
Prochain
piston roulant Carrefour « 200 millions de Twin Towers », un retour symbolique au profit James Wong Cavaliers voler de la musique
gaz avait « l'homme social » piggy Paige, mais les jeunes aiment encore
système PVP est sur le point d'ouvrir le match tous les gens viendront assister à la bataille des temps
Shanghai Metro augmentation rapide de 5 millions de passagers par jour flux, hall de la gare et transport surge « gros sacs », devrait prêter attention à la circulation
« Snow Dragon » dans l'expédition 35e chinoise mer de Chine Antarctique a fait un certain nombre de résultats importants
« Yakuza 3 » remake captures d'écran HD publié présentation des informations détaillées arène souterraine
Roi de jeu de tir à la gloire S14 Recommandé: 4 batailles de l'équipe se tiennent croûte ferme, il y a toujours un droit pour vous
"Skyline" Nouveau MOD créer "Blade Runner" Future City est pas un rêve!
« Fait » cette tasse de Coca-Cola, maison graisse Happy Meal ne fournissent plus une paille
James Wong vengeance cinq fois roulement « recrue de provocation », une donnée détonnent équipe de chevalier fou
robe 12 octobre, le groupe de cartes de dieu Maître Wang chirurgie de cohabitation
balcon Romeo, toutes sortes de gens réseau marée rouge achats, à 12 km à travers les trois zones de punch ce nombre bar pittoresque 50