Dynamic | Kai Yuan a gagné le monde NeurIPS 2018 champion du concours d'apprentissage multi-agents, les faits saillants de la plate-forme de prise de décision intelligente de la valeur

AI Technology Review par: Récemment, la Conférence internationale sur l'intelligence artificielle haut NeurIPS 2018 est conclu. Plus de 8000 chercheurs en intelligence artificielle du monde entier se sont réunis à Montréal, au Canada, pour discuter des derniers développements de l'année écoulée dans le monde à part dans tous les domaines de l'intelligence artificielle, la réunion a tenu une série de concours pour encourager les milieux universitaires et de l'industrie à travailler ensemble pour résoudre le plus difficile problème de l'intelligence artificielle de. Comme l'un des quartiers les plus anciens de la conférence Intelligence artificielle, le résultat est considéré comme le domaine de la recherche de l'intelligence artificielle « Girouette. »

Ce qui, par le cerveau Google, Facebook, Université d'Oxford et l'IA dans la prestigieuse industrie du jeu Université de New York et d'autres institutions de la concurrence multi-agent organisé conjointement - tournois de l'équipe Bomberman (Les NeurIPS 2018 Pommerman compétition), en particulier accrocheurs. De la Chine monde Qiyuan du Dr Peng Peng, Institut d'assistant de recherche informatique Dr Pang brillante et Université Normale de Beijing, l'équipe de course composée Yuan Yu Feng, et les États-Unis, en Europe, au Japon, 24 équipes de première classe de la Chine de la concurrence féroce, et le démarrage en fin de compte sur la base yuans la formation de la plate-forme de renseignement de décision Navocado agent double pour améliorer la capacité de stable, a gagné le match champion d'apprentissage, a démontré l'équipe de prise de décision intelligente de la Chine, avec la force technique de classe mondiale.

Kai Yuan fondée en 2017 est un monde de décision cognitive rendant la technologie intelligente au cur de la société, initiée par l'ancien Ali, Netflix, les scientifiques d'IBM et les cadres, et a consultant ad hoc à Berkeley, CMU et d'autres institutions bien connues. compétences de base de l'équipe à l'apprentissage en profondeur, l'apprentissage par renforcement, un grand parallèle à grande échelle informatique basée, avec une expérience réussie dans de nombreux domaines de l'Internet, des jeux, etc.

La prise de décision intelligente est maintenant un problème technique de classe mondiale, le processus de prise de décision du cerveau humain est la plupart des fonctions complexes. Car avec de grandes perspectives d'application dans le jeu, le transport, l'énergie et d'autres domaines, la prise de décision intelligente au cours des dernières années est devenu le centre de l'intelligence artificielle mondiale de recherche, DeepMind, Facebook, OpenAI, Microsoft, Amazon et d'autres géants de la technologie ont mis en place un laboratoire de recherche. Par rapport à un seul agent, la difficulté de jeu multi-agents est augmenté de façon exponentielle. La concurrence NeurIPS multi-agents est le premier NeurIPS ouvert du concours multi-agents réunion, La collaboration multi-agents, jeu d'information et de continuer à apprendre le corps non-plein et d'autres questions clés à se concentrer dans le jeu Bomberman, encouragent les chercheurs remarquables dans le monde entier à se joindre à résoudre les défis techniques.

La NeurIPS concurrence féroce multi-agent utilise un double mécanisme d'élimination (double élimination), 25 équipes participantes ont reçu deux agents participent à 2c2 Tournoi. Chaque agent des équipes participantes sont d'abord pris au piège dans un intervalle fermé, l'agent a explosé près d'une seule boîte en bois pour obtenir dans d'autres régions, et la vision intelligente ne dispose que d'une partie de la région. Après presque tous les obstacles ont été nettoyés, l'agent dans la phase de confrontation, tout l'agent est libre d'activités à l'échelle mondiale, l'objectif principal de cette étape est l'agent de faire exploser l'adversaire.

Figure 1: Concours multi-agents - processus de compétition du tournoi d'équipe Bomberman nécessite l'agent complet: 1) l'élimination des obstacles, 2) éviter les bombes incendiaires, des équipements de réseau 3), 4) éviter leurs propres et d'autres la flamme à la bombe de personnes, 5) des bombes pour tuer les adversaires, 6) des bombes à éviter de tuer ses coéquipiers. Le processus d'extraction des informations utiles et un agent de dépistage efficace, alors que le raisonnement de l'information inconnue et hypothèses, ainsi que la collaboration multi-agents ont fait de très hautes exigences techniques. plate-forme de renseignement de décision Navocado Kai Yuan pour la formation d'agent double dans la partie de la course de la performance ci-dessous:

Bomberman avec l'équipe, des deux côtés de l'usine de confinement des bombes adversaires, après la tempête a détruit leurs adversaires dans le moyen terme

bombe Bomberman dans le temps pour éviter de déplacer à travers flexibles

bombe Bomberman à son adversaire prendre l'initiative de direction du coup, l'adversaire battu précisément

Bomberman apprendre boîte de bombardements précis et manger l'amélioration de trouver son chemin à travers la drogue le plus court chemin

Il y a deux mois pour former le modèle à chaque ligne de l'équipe de course. décision finale Kai Yuan basé sur la formation plate-forme intelligente Navocado battu Skynet du Canada, a remporté le champion de l'apprentissage. Skynet équipe du Canada près d'une centaine de personnes Barème entreprises technologiques Borealis.ai. Du processus de combat, la capacité offensive Kai Yuan Navocado agent actif est nettement plus forte que l'adversaire. Skynet du public sur le site officiel du point de vue de la mise en uvre, le modèle Skynet a ajouté beaucoup d'interventions manuelles (telles que les restrictions sur qui ne peuvent pas aller aux flammes à la bombe) dans le processus de prise de décision, Ce modèle Navocado tout au long de la formation et le processus de prise de décisions sans intervention humaine, l'auto-apprendre les compétences comme il y a un grand écart.

Figure 2: processus de formation continue Navocado Agent pour améliorer l'effet de la courbe Kai Yuan à partir de 2017. pour créer une plate-forme de prise de décision a joué un rôle clé dans la formation intelligente de l'agent pour gagner cet événement. Renforcement apprentissage en tant que technologie de base de la prise de décision intelligent, mais aussi l'encontre d'une méthode d'apprentissage machine. Étant donné que l'apprentissage consiste à renforcer le lien est très long, et l'algorithme d'apprentissage de renforcement se hyperparametric très sensible aux différentes implémentations tout le monde dans le milieu universitaire ou la configuration est très facile aux résultats de formation de plomb ne sont pas reproductibles phénomène. techniques d'apprentissage par renforcement peuvent reproductibilité, il peut y avoir des défis en termes de réutilisabilité et de robustesse. Avec la puissance de la plate-forme, Kai Yuan décision intelligence apprentissage de renforcement de l'utilisation de la plate-forme pour résoudre les problèmes de décision complexes, a démontré la faisabilité de l'apprentissage de renforcement. Kai Yuan plate-forme intelligente de soutien à la décision de construire une infrastructure de jeu multi-agents, la capacité d'apprentissage continu multi-agent peut être réalisé par la concurrence. La plate-forme prend également en charge la planification des ressources et le réglage automatique des paramètres automatique du yuan apprentissage, ce qui rend la formation modèle plus efficace. Dr Peng Peng Kai Yuan a introduit le monde, « l'équipe Kai Yuan de l'apprentissage de renforcement dans ce domaine ont une grande passion. Cette fois-ci nous gagnons la course agent multi-agent dans NeurIPS, il n'y a pas d'intervention humaine à chaque étape du processus de formation, la courbe d'apprentissage est très belle, pour démontrer l'efficacité et la robustesse de ce système pour vérifier la valeur des technologies d'apprentissage de renforcement. « de la conception de l'architecture de plate-forme pour la mise en uvre sous-jacente, yuan Kai a fait beaucoup de travail détaillé, et nous nous efforçons dans l'environnement, y compris la simulation, prédictive de modèle et de la formation de prise de décision intelligente et d'autres liens connexes sont parfaits. Kai Yuan mis en scène l'équipe de course a conçu un système de récompense et d'ajuster les paramètres basés sur la plateforme de prise de décision super-intelligente. Dans le processus de prise de décision utilisation intelligente de la plate-forme Kai Yuan, l'équipe de course peut envoyer rapidement les ressources nécessaires à la tâche de déploiement, de configuration de combat souhaitée agent, et l'observation en temps réel gagner la situation de guerre et les courbes de différents modèles dans le processus de formation, afin de faire le plus rapide d'ajustement.

Figure 3: l'intelligence architecture de plate-forme de décision Kai Yuan

Dans ce NeurIPS concours multi-agents, la plate-forme de renseignement de décision Kai Yuan fournit trois puissance:

Tout d'abord, la capacité de soutenir l'agent d'apprentissage continu.

La capacité de continuer à apprendre est un agent clé dans un anneau de formation. Au cours de la phase de formation, des bombes intelligentes, course aux gens passé la nécessité de maintenir les compétences acquises dans le processus d'apprentissage de nouvelles compétences afin d'atteindre un très haut niveau. Kai plate-forme de renseignement de décision Yuan « sélection naturelle », de manière à atteindre l'apprentissage continu est réalisée au moyen d'agent sportif match de groupe. Dans le processus concurrentiel, retenu les forts et les faibles sont éliminés. Après les faibles sont éliminés, la poste laissé vacant est remplacé par le clone fort et clone la forte évolution continue est définie en fonction de la nouvelle super-référence. Dans le cas du budget des ressources informatiques fixe, plate-forme de renseignement de décision Kai Yuan pour explorer de nouvelles forte (exploration) grâce à ce mécanisme et de la racine de l'utilisation équilibrée des ressources informatiques entre l'ancien fort (exploitation).

Deuxièmement, le soutien à la scène multi-agents complexe de formation commune.

Dans les problèmes de jeu multi-agents, la retenue mutuelle entre les différents organismes de renseignement sont plus fréquentes, la possibilité de convergence est extrêmement complexe. En compétition Bomberman, différents styles d'agent des équipes, une bonne attaque, une bonne garde. Sur la base de « l'effet de poisson-chat » de la pensée (il se réfère à l'introduction de la forte, faible pour fort effet d'excitation), Kai Yuan plate-forme de renseignement décisionnel fondé sur des règles pour l'introduction de concurrents d'ordre supérieur dans les premiers stades de la formation, afin de stimuler un agent faible au début et forte DUEL apprendre toutes les compétences de base pour élever devenir forte, avec l'approfondissement de la phase de formation, la plate-forme de renseignement Kai yuans de décision alors que la formation multi-agent, de sorte que l'auto-perfection dans la confrontation acharnée entre eux.

Troisièmement, le soutien à grande échelle, la simulation et de la formation très simultanée basée sur cluster cloud privé à grande échelle.

Genesis décision Intelligent Platform architecture pluralité de modules représentés sur la figure componentizing et encapsulées dans un récipient. La gestion par les centaines de mode automatisé nuage des ressources CPU et GPU et pour obtenir un arrangement de conteneurs, ce qui réduit le coût de l'envoi des dizaines de missions de formation Bomberman. À grande échelle, simulation très simultanée et à grande échelle la formation en même temps dans un cluster de cloud privé. De plus, la plate-forme de renseignement de décision Kai Yuan fournit une solution de stockage distribué et configuré pour partager la piscine de modèle pour fournir un soutien à la persistance et la part des groupes de modèle d'agent Bomberman.

Kai Yuan Décision Intelligence Platform version v0.8 a été utilisé pour les jeux, les scénarios de renseignement et de simulation réseau. Sur la base des services à forte valeur ajoutée à ses clients, le monde commercial Kai Yuan en 2018 sur un hachoir à petite échelle, déjà obtenu de bons revenus. 2019, des plans pour libérer la première édition du monde Kai Yuan Kai Yuan prise de décision produits à base de plates-formes intelligentes, comme plus de clients industriels, l'expérience de l'utilisateur final pour apporter un service de haute.

Plus de détails sur le programme de la compétition, Kai Yuan monde et est l'auteur d'un rapport technique, le lecteur intéressé peut se référer à:

https://arxiv.org/abs/1812.07297

système de prise de décision intelligente commune fondée sur l'apprentissage supervisé, mais des décisions intelligentes basées sur le système d'apprentissage de renforcement n'est pas commun. AI Technology Review est très intéressé par la façon dont ils perçoivent et réagissent à l'apprentissage par renforcement inhérent à une série de défis techniques. Restez à l'écoute de notre rapport de suivi.

Cliquez pour lire le texte, vue NeurIPS 2018 calculera un article positif

120000 forte break Qui? longue lecture comparative break Octavia
Précédent
Hong Kong Film Awards base de données publiée, l'actrice toujours l'obtenir était elle
Prochain
Outils | Facebook libérés sans gradient optimisé outils open source Nevergrad, peut être appliquée à différents types de problèmes d'apprentissage machine
Ce n'est pas un scénario de film de gangster, c'est la réalité à Hong Kong effroyable assassiner -
Site | Difficile vrai visage des problèmes techniques, la marque de la technologie d'édition Geely « Intec » combler une vacance
LeetCode de base algorithme premier 102 titre: nuds feuilles d'arbres binaires et tout à gauche
KITH x communiqué de série joint Daniel Arsham! Assurez-vous un seconde division tourné la chimie?
Epic fils de trois chambres admet un père, se sont mariés en Février peut maintenant se promener bébé?
robot de nettoyage de pierre conduit, deux à onze inventaire des bonnes choses technologiques vaut d'achat
Photos d'attaque Blue Harbor: « épée du ciel » glaner « Shadow Odyssey » lien, Qi Wei, Wong projet d'art dramatique de réseau entrant Cho Lam
Ces premier intelligence artificielle rencontre l'année prochaine a déménagé en Chine! Aucun pays ne peut « Montagne Huashan »
« Forensic Heroes 4 » vient d'annoncer qu'elle allait monter le nid, ses débuts de 16 ans ont appris à voir plus tard agir ~
Po Chun 730 automatique Intérieur a annoncé! Le nouveau marché de l'automobile, ou 18 Novembre
Heineken et la famille conjointe BAPE? ! Avec pour voir Coca-Cola qui est mieux que vous pensez?