StarCraft 201:10 perdu AI humaine! DeepMind « AlphaStar » évolution rapide

Juste, encore une fois, nous avons assisté à des progrès significatifs dans l'IA et PK humaine! DeepMind Pékin le 25 Janvier de 02h00 a annoncé son record de la grippe aviaire dans « StarCraft 2 » et la course deux avantages: AlphaStar 5: 0 victoire sur pro TLO, 5: 0 victoire sur WSC 2018 runner-up Austin mANA. Et deux course aux adversaires humains séparés par environ deux semaines, AI autodidacte, est passé de la guerre TLO niveau recrue, le processus d'évolution à un fonctionnement parfait, surtout avec le manas de la guerre, a commencé à se manifester peut aller au-delà des limites de l'homme capacité.

La démonstration aussi DeepMind StarCraft 2 AI AlphaStar première apparition publique. En plus de l'émission de jeu vidéo précédente, AlphaStar est également venu sur la scène et MANA manche, mais a perdu les joueurs humains Alphastar Inning MANA.

Carte | MaNa se concentrent sur le jeu (Figure Source: Youtube)

DeepMind introduit dans la démo, le jeu entre les deux parties fixe carte Catalyst LE, en utilisant la 4.6.2 version du jeu, mais seulement la guerre civile Protoss, les deux parties procéderont cinq jeux. Tout d'abord, l'invitation est clan liquide Zerg joueur TLO, numéro mondial actuel 68.

Carte | TLO (Figure Source: Youtube)

Premier match, TLO 10 apparaît en heures, 4 heures Alphastar apparaissent dans une direction diagonale. L'ouverture de TLO est très traditionnelle, avec une fermeture caserne deux début route, mais AlphaStar et aucune fermeture de route, la question avait été les agriculteurs TLO à l'enquête, il résolut de tirer sur les apôtres, avec une stratégie commune pour tuer le harcèlement paysan.

Bien que Alphastar aucune fermeture de route, directement dans les apôtres TLO, mais doubles casernes Alphastar créent également la défense Apôtre, menant au premier harcèlement TLO seulement tué deux agriculteurs, et le reste des apôtres a échoué .

Ensuite, les deux parties commencent à remplir la chasse, TLO a commencé à harceler le prophète. Les deux parties ont eu un certain nombre de la guerre à petite échelle, plusieurs vagues d'échange est presque une cravate, plus d'agriculteurs perte AlphaStar, TLO a perdu plus que les apôtres. Dans la guerre, nous voyons le AlphaStar étaient humains comme microgestion, tout en se retirant, tout en jouant le TLO anti-chasse, tandis que les troupes de prisme de transmission.

Carte | vision AlphaStar, on peut voir ce qui se passe en dehors du brouillard carte entière de la guerre, puis prendre des décisions, réaliser la planification globale des ressources (Figure Source: Youtube)

Mais cette fois-ci TLO deux mienne vient de terminer, AlphaStar qu'une seule mine, se traduira par une plus grande force économique, et donc plus AlphaStar cassé la chasse, la sélection directe offensive des mines, la chasse de TLO en infériorité numérique en après avoir été anéanties la pièce principale force GG.

Le premier jeu à gagner est le résultat de DeepMind, nous avons vu des pratiques inhabituelles Alphastar, comme le harcèlement des agriculteurs ne choisissent pas, mais directement avec les forces de défense, puis capturé après la découverte deuxième mine TLO, devant le champ de bataille dans plusieurs chasse a poursuivi la répression.

Après en raison des contraintes de temps, la présentation ne joue pas tous les jeux, mais montrant un autre jeu vidéo, il donne l'OTL a perdu tout record de cinq jeux. Cependant, toutes les vidéos seront diffusées sur le site officiel DeepMind pour les personnes à télécharger.

TLO Dans la démonstration, a dit qu'il pensait qu'il pouvait encore gagner, si nous pouvons avoir plus de temps de formation, plus de compréhension de AlphaStar, est sûr de trouver les faiblesses Alphastar, puis gagner.

Suivie par les débuts de l'équipe est liquide MaNa, comme classé 19 joueur Protoss, il est plus puissant que TLO. Si AlphaStar peut le battre, ce qui expliquerait AlphaStar a vraiment la force des joueurs de haut humain.

Carte | AlphaStar et joueurs humains APM ne diffère pas beaucoup (Figure Source: Youtube)

MaNa la première manche, les deux côtés sont des start « normales », les fermetures de routes, MANA Alphastar aucune fermeture de route. Mais AlphaStar a adopté une variante stratégique, choisir de fixer leur cristal près de la base MaNa, capturé deux casernes, prêt à profiter de la caserne de l'attaque. MaNa cette fois aussi, conformément à la pensée humaine, l'utilisation des apôtres harcèlent les agriculteurs.

Lorsque la caserne Alphastar est presque terminée, et est MaNa a constaté qu'il a pris des mesures défensives décisives en pente haute construit deux stations de charge, les fermetures de routes et prêts à profiter de la forte pente de l'avantage à venir chasser d'une armée défensive. MaNa conformément à l'idée de « joueurs humains normaux ne va pas à se lancer sur la pente élevée. »

Mais AlphaStar n'est pas humain, il choisit une attaque directe sur les hauteurs après avoir hésité deux fois, parce que le nombre de MaNa de roulement traqué, casernes sauvages encore en permanence sortie chassaient, la station de charge est presque aucun effet, après plusieurs tours éclatent, manas de Stalker appauvri, finalement retiré tous les agriculteurs ont échoué à sortir une victoire, a échoué.

Dans les deux disque suivant réenregistrement, nous avons vu microgestion fort et la réflexion tactique AlphaStar, il va essayer d'apprendre et de fermetures de routes tactiques de l'humanité, les agriculteurs produisent Atténuer supplémentaires l'impact causé par le harcèlement. Dans un jeu, on voit l'utilisation de tactiques de chasse pures Alphastar, en se fondant sur micro puissant MaNa contre la combinaison chasse, l'immortalité et la fourche de l'armée mixte.

Carte | guerre en temps réel (Figure Source: Youtube)

AlphaStar La chasse est divisée en plus de 30 groupes 2-3, MaNa double équipe attaquer les forces de trois directions, puis s'échapper par le clignotement neuf attaque immortelle, cette exploitation non humaine chambre MaNa complètement détruite de manuvre - que ce soit il a construit le nombre d'immortalité, il n'y a aucun moyen de résister à l'armée traqué. « Cette situation ne se produira pas au même niveau dans le jeu humain, » MaNa contrecur dit dans un discours.

Les résultats finaux aussi MaNa 0-5 défaite des résultats 10 jeu sont tous les êtres humains et l'échec AlphaStar.

Cependant, dans la présentation en direct, DeepMind semblait l'expansion, la sélection et MANA a réalisé une exposition en temps réel, qui a dit aussi qu'ils doivent nommer le clan liquide, clan et défendre l'honneur de l'humanité.

Les deux parties commencent routine, et pas à grande échelle au début de la lutte. Mais MaNa viennent apparemment préparé, ne pas utiliser le harcèlement des apôtres et des prophètes, mais de se concentrer sur les enquêtes et la technologie en hausse. Après avoir découvert AlphaStar encore produit une vaste multi-chasse, MaNa utilise une tactique de harcèlement immortelles de transport de prisme, et remplir l'immortel, fourchettes et consuls et autre force hybride. Cela peut être décrit comme un coup de génie tout le jeu.

Figure | Prophète autour de trois prismes montre (fig. Source: Youtube)

Lorsque parachutages harcèlement immortel des agriculteurs, AlphaStar n'a pas choisi de remplir le Phoenix a frappé prisme, mais pas attaquer les unités aériennes suivi du prisme du prophète, complété par des dizaines de retour de chasse-et-vient vers et depuis la ligne de front et à la maison. Il semble qu'elle croit chasser pour une attaque aérienne, et donc ne pas besoin de remplir le Phoenix, mais il semble que tous sont traqués dans un groupe, aucun des lots ont été exécutés tâches offensives et défensives.

Nous voyons donc un joueur humain typique contre la méthode AI: forcer ce dernier dans une boucle de cercle vicieux pour effectuer certaines tâches, ce qui en fait un énorme gaspillage de temps et de ressources, ne peut pas porter un jugement valable de la situation.

De cette façon, la consommation MaNa à leurs troupes de moulage, puis une vague de répression directement à l'effondrement de Alphastar troupes pure chasse. Ce dernier a également essayé d'utiliser des tactiques de blocage double équipe MaNa, mais cette fois les troupes de MANA suffisantes, pour chasser la retenue immortelle est très claire, il n'y a aucune trace laissée aux opérations de hasard AlphaStar, pour effacer l'adversaire, a gagné la victoire précieuse.

Carte | Jeux d'exposition MANA pour obtenir la victoire, exposant les fans de sourire (Figure Source: Youtube)

Bien que TLO et vidéo MaNa pris fin avec la défaite complète, a proclamé la force de DeepMind AlphaStar a été tout à fait différent, mais cette exposition AlphaStar entièrement exposé les lacunes actuelles.

Nous pouvons voir que, malgré ses réseaux de neurones ont tendance à optimiser le long terme, mais semble toujours tomber dans optimum local dans une certaine mesure, a été découvert modèle fixe, tomber dans le piège, et de 5 à tenir ensemble un peu Jingle, pour chasser pur les troupes, ont montré qu'il est pas encore en place pour comprendre le jeu des armes, si le dernier match, car il peut être directement envoyé prisme défensif Phoenix comme les humains, peut-être il continuera avec des super micro-ondes rasées mANA.

Concours pendant la lecture, l'hôte a demandé aux scientifiques DeepMind, généralement comment former AlphaStar, DeepMind scientifiques Oriol Vinyals, David Silver dit que l'imitation est la première étude, l'équipe a gagné beaucoup de jeux qui jouent les données de retour d'un certain nombre de joueurs là-bas et essayer d'obtenir en observant une AI l'environnement dans lequel les gens, autant que possible d'imiter une action particulière, afin de comprendre les bases de StarCraft. Parmi les documents de formation utilisés pour inclure non seulement les athlètes professionnels, mais aussi des joueurs amateurs. Ceci est la première étape AlphaStar moulage.

 Carte | DeepMind scientifiques Oriol Vinyals (Figure Source: Youtube)

 Carte | DeepMind scientifique David Silver (Figure Source: Youtube)

Après cela, l'équipe utilisera une méthode appelée « Alpha League » de. Dans cette méthode, Alpha League premier concurrent est formé des données humaines du réseau de neurones, et puis encore et encore itérations, et générer de nouvelles branche d'agent de croître « Alpha League ».

Figure | Alpha League schéma (figure Source:. Youtube)

Ensuite, le processus d'apprentissage par renforcement de l'agent dans le jeu avec d'autres concurrents, « Alpha League » afin de vaincre toutes ces différentes stratégies aussi efficacement que possible. En outre, il peut aussi encourager la concurrence en ajustant vers leurs objectifs d'apprentissage personnels Evolution manière particulière, par exemple, est conçu pour obtenir une récompense spécifique.

Enfin, l'équipe Agent « Alpha League » sélectionné pour être utilisé moins probable, que l'on appelle « la nash de la Ligue », qui est la bataille 5 TLO.

les filles ont été Qingyang intimidation: les enseignantes et les parents en disant Rashomon
Précédent
« Centre de soins de mâle en » Vie express
Prochain
Après la jeune fille était la violence domestique à Shenzhen
Les journées chaudes chilling! Binzhou CCPPC cette année pour voir la famille sur le sec, au chaud dans la fosse de l'enfant de l'estomac!
Nouvelles Conférence Shu État pour la science et la technologie a tenu aujourd'hui des prix UESTC 3 gagnants du projet
Volé 31 ans
Agressif! Trois jeune femme et un homme volé un commis de dépanneur Zaobao Da
scientifiques La première fois ont élevé un parfait vaisseaux sanguins humains dans un plat
vidéo poivre rouge et joie Hainan Airlines compagnies aériennes entré dans une coopération stratégique, carnaval ouvert 80 millions de personnes vivant voyage esthétique
Salle de danse, les danseurs âgés encore ans
Flash! foule de la rue Jinan a chanté « Moi et ma mère patrie »
Vous n'ouvrez pas l'air de beauté, vraiment beau
Hubei « deux sessions » conclusion, au nom fit un pas en toute confiance sur le lieu
Dingxi vieux: manger le dîner entre hommes parlant au cur de la pègre