Dynamic | Kai Yuan a gagn� le monde NeurIPS 2018 champion du concours d'apprentissage multi-agents, les faits saillants de la plate-forme de prise de d�cision intelligente de la valeur

AI Technology Review par: R�cemment, la Conf�rence internationale sur l'intelligence artificielle haut NeurIPS 2018 est conclu. Plus de 8000 chercheurs en intelligence artificielle du monde entier se sont r�unis � Montr�al, au Canada, pour discuter des derniers d�veloppements de l'ann�e �coul�e dans le monde � part dans tous les domaines de l'intelligence artificielle, la r�union a tenu une s�rie de concours pour encourager les milieux universitaires et de l'industrie � travailler ensemble pour r�soudre le plus difficile probl�me de l'intelligence artificielle de. Comme l'un des quartiers les plus anciens de la conf�rence Intelligence artificielle, le r�sultat est consid�r� comme le domaine de la recherche de l'intelligence artificielle � Girouette. �

Ce qui, par le cerveau Google, Facebook, Universit� d'Oxford et l'IA dans la prestigieuse industrie du jeu Universit� de New York et d'autres institutions de la concurrence multi-agent organis� conjointement - tournois de l'�quipe Bomberman (Les NeurIPS 2018 Pommerman comp�tition), en particulier accrocheurs. De la Chine monde Qiyuan du Dr Peng Peng, Institut d'assistant de recherche informatique Dr Pang brillante et Universit� Normale de Beijing, l'�quipe de course compos�e Yuan Yu Feng, et les �tats-Unis, en Europe, au Japon, 24 �quipes de premi�re classe de la Chine de la concurrence f�roce, et le d�marrage en fin de compte sur la base yuans la formation de la plate-forme de renseignement de d�cision Navocado agent double pour am�liorer la capacit� de stable, a gagn� le match champion d'apprentissage, a d�montr� l'�quipe de prise de d�cision intelligente de la Chine, avec la force technique de classe mondiale.

Kai Yuan fond�e en 2017 est un monde de d�cision cognitive rendant la technologie intelligente au cur de la soci�t�, initi�e par l'ancien Ali, Netflix, les scientifiques d'IBM et les cadres, et a consultant ad hoc � Berkeley, CMU et d'autres institutions bien connues. comp�tences de base de l'�quipe � l'apprentissage en profondeur, l'apprentissage par renforcement, un grand parall�le � grande �chelle informatique bas�e, avec une exp�rience r�ussie dans de nombreux domaines de l'Internet, des jeux, etc.

La prise de d�cision intelligente est maintenant un probl�me technique de classe mondiale, le processus de prise de d�cision du cerveau humain est la plupart des fonctions complexes. Car avec de grandes perspectives d'application dans le jeu, le transport, l'�nergie et d'autres domaines, la prise de d�cision intelligente au cours des derni�res ann�es est devenu le centre de l'intelligence artificielle mondiale de recherche, DeepMind, Facebook, OpenAI, Microsoft, Amazon et d'autres g�ants de la technologie ont mis en place un laboratoire de recherche. Par rapport � un seul agent, la difficult� de jeu multi-agents est augment� de fa�on exponentielle. La concurrence NeurIPS multi-agents est le premier NeurIPS ouvert du concours multi-agents r�union, La collaboration multi-agents, jeu d'information et de continuer � apprendre le corps non-plein et d'autres questions cl�s � se concentrer dans le jeu Bomberman, encouragent les chercheurs remarquables dans le monde entier � se joindre � r�soudre les d�fis techniques.

La NeurIPS concurrence f�roce multi-agent utilise un double m�canisme d'�limination (double �limination), 25 �quipes participantes ont re�u deux agents participent � 2c2 Tournoi. Chaque agent des �quipes participantes sont d'abord pris au pi�ge dans un intervalle ferm�, l'agent a explos� pr�s d'une seule bo�te en bois pour obtenir dans d'autres r�gions, et la vision intelligente ne dispose que d'une partie de la r�gion. Apr�s presque tous les obstacles ont �t� nettoy�s, l'agent dans la phase de confrontation, tout l'agent est libre d'activit�s � l'�chelle mondiale, l'objectif principal de cette �tape est l'agent de faire exploser l'adversaire.

Figure 1: Concours multi-agents - processus de comp�tition du tournoi d'�quipe Bomberman n�cessite l'agent complet: 1) l'�limination des obstacles, 2) �viter les bombes incendiaires, des �quipements de r�seau 3), 4) �viter leurs propres et d'autres la flamme � la bombe de personnes, 5) des bombes pour tuer les adversaires, 6) des bombes � �viter de tuer ses co�quipiers. Le processus d'extraction des informations utiles et un agent de d�pistage efficace, alors que le raisonnement de l'information inconnue et hypoth�ses, ainsi que la collaboration multi-agents ont fait de tr�s hautes exigences techniques. plate-forme de renseignement de d�cision Navocado Kai Yuan pour la formation d'agent double dans la partie de la course de la performance ci-dessous:

Bomberman avec l'�quipe, des deux c�t�s de l'usine de confinement des bombes adversaires, apr�s la temp�te a d�truit leurs adversaires dans le moyen terme

bombe Bomberman dans le temps pour �viter de d�placer � travers flexibles

bombe Bomberman � son adversaire prendre l'initiative de direction du coup, l'adversaire battu pr�cis�ment

Bomberman apprendre bo�te de bombardements pr�cis et manger l'am�lioration de trouver son chemin � travers la drogue le plus court chemin

Il y a deux mois pour former le mod�le � chaque ligne de l'�quipe de course. d�cision finale Kai Yuan bas� sur la formation plate-forme intelligente Navocado battu Skynet du Canada, a remport� le champion de l'apprentissage. Skynet �quipe du Canada pr�s d'une centaine de personnes Bar�me entreprises technologiques Borealis.ai. Du processus de combat, la capacit� offensive Kai Yuan Navocado agent actif est nettement plus forte que l'adversaire. Skynet du public sur le site officiel du point de vue de la mise en uvre, le mod�le Skynet a ajout� beaucoup d'interventions manuelles (telles que les restrictions sur qui ne peuvent pas aller aux flammes � la bombe) dans le processus de prise de d�cision, Ce mod�le Navocado tout au long de la formation et le processus de prise de d�cisions sans intervention humaine, l'auto-apprendre les comp�tences comme il y a un grand �cart.

Figure 2: processus de formation continue Navocado Agent pour am�liorer l'effet de la courbe Kai Yuan � partir de 2017. pour cr�er une plate-forme de prise de d�cision a jou� un r�le cl� dans la formation intelligente de l'agent pour gagner cet �v�nement. Renforcement apprentissage en tant que technologie de base de la prise de d�cision intelligent, mais aussi l'encontre d'une m�thode d'apprentissage machine. �tant donn� que l'apprentissage consiste � renforcer le lien est tr�s long, et l'algorithme d'apprentissage de renforcement se hyperparametric tr�s sensible aux diff�rentes impl�mentations tout le monde dans le milieu universitaire ou la configuration est tr�s facile aux r�sultats de formation de plomb ne sont pas reproductibles ph�nom�ne. techniques d'apprentissage par renforcement peuvent reproductibilit�, il peut y avoir des d�fis en termes de r�utilisabilit� et de robustesse. Avec la puissance de la plate-forme, Kai Yuan d�cision intelligence apprentissage de renforcement de l'utilisation de la plate-forme pour r�soudre les probl�mes de d�cision complexes, a d�montr� la faisabilit� de l'apprentissage de renforcement. Kai Yuan plate-forme intelligente de soutien � la d�cision de construire une infrastructure de jeu multi-agents, la capacit� d'apprentissage continu multi-agent peut �tre r�alis� par la concurrence. La plate-forme prend �galement en charge la planification des ressources et le r�glage automatique des param�tres automatique du yuan apprentissage, ce qui rend la formation mod�le plus efficace. Dr Peng Peng Kai Yuan a introduit le monde, � l'�quipe Kai Yuan de l'apprentissage de renforcement dans ce domaine ont une grande passion. Cette fois-ci nous gagnons la course agent multi-agent dans NeurIPS, il n'y a pas d'intervention humaine � chaque �tape du processus de formation, la courbe d'apprentissage est tr�s belle, pour d�montrer l'efficacit� et la robustesse de ce syst�me pour v�rifier la valeur des technologies d'apprentissage de renforcement. � de la conception de l'architecture de plate-forme pour la mise en uvre sous-jacente, yuan Kai a fait beaucoup de travail d�taill�, et nous nous effor�ons dans l'environnement, y compris la simulation, pr�dictive de mod�le et de la formation de prise de d�cision intelligente et d'autres liens connexes sont parfaits. Kai Yuan mis en sc�ne l'�quipe de course a con�u un syst�me de r�compense et d'ajuster les param�tres bas�s sur la plateforme de prise de d�cision super-intelligente. Dans le processus de prise de d�cision utilisation intelligente de la plate-forme Kai Yuan, l'�quipe de course peut envoyer rapidement les ressources n�cessaires � la t�che de d�ploiement, de configuration de combat souhait�e agent, et l'observation en temps r�el gagner la situation de guerre et les courbes de diff�rents mod�les dans le processus de formation, afin de faire le plus rapide d'ajustement.

Figure 3: l'intelligence architecture de plate-forme de d�cision Kai Yuan

Dans ce NeurIPS concours multi-agents, la plate-forme de renseignement de d�cision Kai Yuan fournit trois puissance:

Tout d'abord, la capacit� de soutenir l'agent d'apprentissage continu.

La capacit� de continuer � apprendre est un agent cl� dans un anneau de formation. Au cours de la phase de formation, des bombes intelligentes, course aux gens pass� la n�cessit� de maintenir les comp�tences acquises dans le processus d'apprentissage de nouvelles comp�tences afin d'atteindre un tr�s haut niveau. Kai plate-forme de renseignement de d�cision Yuan � s�lection naturelle �, de mani�re � atteindre l'apprentissage continu est r�alis�e au moyen d'agent sportif match de groupe. Dans le processus concurrentiel, retenu les forts et les faibles sont �limin�s. Apr�s les faibles sont �limin�s, la poste laiss� vacant est remplac� par le clone fort et clone la forte �volution continue est d�finie en fonction de la nouvelle super-r�f�rence. Dans le cas du budget des ressources informatiques fixe, plate-forme de renseignement de d�cision Kai Yuan pour explorer de nouvelles forte (exploration) gr�ce � ce m�canisme et de la racine de l'utilisation �quilibr�e des ressources informatiques entre l'ancien fort (exploitation).

Deuxi�mement, le soutien � la sc�ne multi-agents complexe de formation commune.

Dans les probl�mes de jeu multi-agents, la retenue mutuelle entre les diff�rents organismes de renseignement sont plus fr�quentes, la possibilit� de convergence est extr�mement complexe. En comp�tition Bomberman, diff�rents styles d'agent des �quipes, une bonne attaque, une bonne garde. Sur la base de � l'effet de poisson-chat � de la pens�e (il se r�f�re � l'introduction de la forte, faible pour fort effet d'excitation), Kai Yuan plate-forme de renseignement d�cisionnel fond� sur des r�gles pour l'introduction de concurrents d'ordre sup�rieur dans les premiers stades de la formation, afin de stimuler un agent faible au d�but et forte DUEL apprendre toutes les comp�tences de base pour �lever devenir forte, avec l'approfondissement de la phase de formation, la plate-forme de renseignement Kai yuans de d�cision alors que la formation multi-agent, de sorte que l'auto-perfection dans la confrontation acharn�e entre eux.

Troisi�mement, le soutien � grande �chelle, la simulation et de la formation tr�s simultan�e bas�e sur cluster cloud priv� � grande �chelle.

Genesis d�cision Intelligent Platform architecture pluralit� de modules repr�sent�s sur la figure componentizing et encapsul�es dans un r�cipient. La gestion par les centaines de mode automatis� nuage des ressources CPU et GPU et pour obtenir un arrangement de conteneurs, ce qui r�duit le co�t de l'envoi des dizaines de missions de formation Bomberman. � grande �chelle, simulation tr�s simultan�e et � grande �chelle la formation en m�me temps dans un cluster de cloud priv�. De plus, la plate-forme de renseignement de d�cision Kai Yuan fournit une solution de stockage distribu� et configur� pour partager la piscine de mod�le pour fournir un soutien � la persistance et la part des groupes de mod�le d'agent Bomberman.

Kai Yuan D�cision Intelligence Platform version v0.8 a �t� utilis� pour les jeux, les sc�narios de renseignement et de simulation r�seau. Sur la base des services � forte valeur ajout�e � ses clients, le monde commercial Kai Yuan en 2018 sur un hachoir � petite �chelle, d�j� obtenu de bons revenus. 2019, des plans pour lib�rer la premi�re �dition du monde Kai Yuan Kai Yuan prise de d�cision produits � base de plates-formes intelligentes, comme plus de clients industriels, l'exp�rience de l'utilisateur final pour apporter un service de haute.

Plus de d�tails sur le programme de la comp�tition, Kai Yuan monde et est l'auteur d'un rapport technique, le lecteur int�ress� peut se r�f�rer �:

https://arxiv.org/abs/1812.07297

syst�me de prise de d�cision intelligente commune fond�e sur l'apprentissage supervis�, mais des d�cisions intelligentes bas�es sur le syst�me d'apprentissage de renforcement n'est pas commun. AI Technology Review est tr�s int�ress� par la fa�on dont ils per�oivent et r�agissent � l'apprentissage par renforcement inh�rent � une s�rie de d�fis techniques. Restez � l'�coute de notre rapport de suivi.

Cliquez pour lire le texte, vue NeurIPS 2018 calculera un article positif

Route de la soie

Apprenez � conna�tre la Chine

Dynamic | Kai Yuan a gagn� le monde NeurIPS 2018 champion du concours d'apprentissage multi-agents, les faits saillants de la plate-forme de prise de d�cision intelligente de la valeur