Inspiré par la profondeur de l'apprentissage de renforcement + intelligente DÉCISIONNEL humaine, il y a une interview accordée à la vision des entreprises chinoises, « Kai Yuan monde. »

AI Technology Review par: La dernière fois que nous avons fait état de la prise de décision entreprise intelligente de la Chine, « Kai Yuan monde », en vertu de leur propre apprentissage de renforcement de la profondeur de la technologie de base et la plate-forme de renseignement de prise de décision, multi-agents dans NeurIPS 2018 concours « tournois de l'équipe Bomberman » ont été obtenus en champion de l'apprentissage .

Kai Yuan monde choisissent d'étudier la technologie pour la ligne de profondeur améliorée, qui rappelle les mêmes racines dans l'apprentissage de renforcement pour aller AI Intelligence artificielle AlphaGo célèbre entreprise DeepMind. Pendant ce temps, monde Qiyuan et aussi un élément indispensable dans la vie des jeunes - Jeux - sont inextricablement liés.

D'autre part, l'apprentissage par renforcement comme une technologie émergente dans un domaine en évolution rapide, il y a beaucoup de défis en soi, comme reproductible, réutilisabilité et la robustesse des aspects du problème peut également limiter son application pratique. Kai Yuan monde où viennent la profondeur de l'apprentissage de renforcement pour la prise de décision confiance et enthousiasme intelligente de? Comment ils perçoivent les défis de l'apprentissage de renforcement? Quels sont-ils et les réalisations technologiques soutiennent leurs idées ambitieuses? La tenue de ces curieux, nous avons interviewé Kai Yuan Yuan Quan, fondateur et chef de la direction du monde.

Yuan Quan, fondateur du World Kai Yuan-directeur général: Ali a servi en tant que directeur de laboratoire informatique cognitive, directeur principal, téléphone mobile algorithme de recommandation fondateur de l'équipe Taobao Lynx, la création d'un bon stock, vous aimerez aussi les fournisseurs d'électricité et d'autres produits personnalisés bien connus , le double du taux de l'équipe a remporté le 201511 CEO Prix de contribution spéciale. Avant de se joindre Ali, Yuan Quan a été chercheur à l'Institut de recherche IBM Chine pour étudier et recommander algorithme de prise de décision intelligente, est le IBM 2011 Global Banking commanditaire tête de série de projets innovants. Bien que la pratique de l'industrie des applications à grande échelle, qui sont résumées et publiées plus de trente articles dans des conférences internationales ACM haut RecSys, KDD, SDM et ainsi de suite. Yuan Quan a un certain nombre de brevets sino-américaines, de longue date ACM RecSys, IEEE Transaction sur les examinateurs Jeux. Kai Yuan fondée en 2017 est un monde de décision cognitive rendant la technologie intelligente au cur de la société, initiée par l'ancien Ali, Netflix, les scientifiques d'IBM et de cadres, de doctorat et de maîtriser un certain nombre d'universités prestigieuses à se joindre, et ont Berkeley, CMU, etc. consultant distingué institutions bien connues. Vision mondiale Kai Yuan est de « créer une intelligence de prise de décision de construire un monde parallèle pour stimuler le potentiel humain, » les compétences de base de l'équipe à l'apprentissage en profondeur, l'apprentissage par renforcement, un grand parallèle à grande échelle informatique basée, avec une expérience réussie dans de nombreux domaines de l'Internet, des jeux, etc., par domestique première classe investisseurs étrangers de tous âges.

Smart Reaper après 10 la formation dans l'environnement et 10 confrontation Faucheur joueur contrôlé, montrant une retraite intelligente, Chase, encerclée de regroupement, l'utilisation de la capacité des manuvres de terrain saut

AI Technology Review: L'objectif principal du monde est la technologie du renseignement de décision cognitive Kai Yuan. Nous avons entendu parler de scénarios de prise de décision intelligente, y compris le contrôle des risques financiers, le diagnostic médical, et ainsi de suite. Kai Yuan monde est objectif actuel sur lequel les industries sont plus des scènes? Comment les résultats? plans d'avenir quelles industries scène participe?

Yuan Quan: Notre principale préoccupation est le jeu, les industries liées à l'intelligence et de simulation de réseau. Notre profondeur de techniques d'apprentissage de renforcement, en fait, la première formation vient du jeu, alors la décision Kai Yuan basé sur la plateforme intelligente pour le développement et l'application. Nous utilisons donc plus naturel pour explorer l'industrie du jeu, comme la fourniture de services au moteur de jeu et société AI. Agent Notre AI ne peut pas seulement remplacer NPC traditionnel dans le jeu, et même accompagner les gens jouent beaucoup de plaisir (Jouer avec AI et vidéo StarCraft humaine voir Ainsi, l'industrie e-sport est de plus en plus notre attention. l'intelligence du réseau et de renforcer la profondeur des zones de simulation d'apprentissage aussi avantageux.

Notre société a été fondée plus d'un an, principalement de l'énergie dans la technologie de base et le développement de produits, en particulier la plate-forme de renseignement de décision Qiyuan. Kai plate-forme de renseignement de décision Yuan après plusieurs séries d'itérations, le numéro de build a atteint -v0.8. Kai Yuan a actuellement la plate-forme de renseignement décisionnel présente les avantages concurrentiels suivants:

capacité d'apprentissage continu En premier lieu,. La capacité de continuer à apprendre est un agent clé dans un anneau de formation. Au cours de la phase de formation, la nécessité d'agent de conserver les compétences acquises au cours du passé pour apprendre de nouvelles compétences afin d'atteindre un très haut niveau. plate-forme de renseignement de décision Qiyuan « sélection naturelle », de manière à atteindre l'apprentissage continu est réalisée par voie de match de groupe d'agent sportif. Dans le processus concurrentiel, retenu les forts et les faibles sont éliminés. Après les faibles sont éliminés, la poste laissé vacant est remplacé par le clone fort et clone la forte évolution continue est définie en fonction de la nouvelle super-référence. Dans le cas du budget des ressources informatiques fixe, plate-forme de renseignement de décision Kai Yuan pour explorer de nouvelles forte (exploration) grâce à ce mécanisme et de la racine de l'utilisation équilibrée des ressources informatiques entre l'ancien fort (exploitation).

Deuxièmement, le soutien à la scène multi-agents complexe de formation commune. Dans les problèmes de jeu multi-agents, la retenue mutuelle entre les différents organismes de renseignement sont plus fréquentes, la possibilité de convergence est extrêmement complexe. Bomberman concurrence, par exemple, dans la course, différents styles d'agent des équipes, une bonne attaque, une bonne garde. Sur la base de l'idée « effet de poisson-chat » (défini par l'introduction de la forte, faible pour fort effet d'excitation), Kai Yuan plate-forme de renseignement décisionnel fondé sur des règles pour l'introduction de concurrents d'ordre supérieur dans les premiers stades de la formation, afin de stimuler un agent faible au début et forte le duel apprendre toutes les compétences de base pour élever deviennent forts, avec l'approfondissement de la phase de formation, la plate-forme de renseignement Kai yuans de décision alors que la formation multi-agent, de sorte que l'auto-perfection dans la confrontation acharnée entre eux.

Troisièmement, le soutien à grande échelle, la simulation et de la formation très simultanée basée sur cluster cloud privé à grande échelle. décision Genesis pluralité Intelligent Platform de modules qui le composent, et emballé dans un récipient (figure). La gestion par les centaines de mode automatisé nuage des ressources CPU et GPU et pour obtenir un arrangement de conteneurs, ce qui réduit le coût de l'envoi des dizaines de missions de formation Bomberman. À grande échelle, simulation très simultanée et à grande échelle la formation en même temps dans un cluster de cloud privé. De plus, la plate-forme de renseignement de décision Kai Yuan fournit une solution de stockage distribué et configuré pour partager la piscine de modèle pour fournir un soutien à la persistance et la part des groupes de modèle d'agent Bomberman.

2018 Nous avons essayé de mettre un peu commercialiser la technologie, est également obtenu de bons revenus. 2019, des plans pour libérer la première édition du monde Kai Yuan Kai Yuan prise de décision produits à base de plates-formes intelligentes, comme plus de clients industriels, l'expérience de l'utilisateur final pour apporter un service de haute.

Retour à venir à la prise de décision intelligente, il est une technologie relativement commune, la capacité de prise de décision de l'aide peut être généralisé à de nombreuses industries, et même l'intelligence réseau - En fait, chaque nud du réseau sont également un organe de prise de décision intelligente, la prise de décision intelligente il y a beaucoup de place. Nous allons également mettre l'accent sur l'avenir possible pour les télécommunications, l'énergie électrique, réseau de renseignement des industries connexes.

AI Technology Review: décisions intelligentes dans des applications réelles doivent prendre en compte la décision de l'intelligibilité, la prise de décision équitable, de fournir des opportunités excusent l'humanité et ainsi de suite. Êtes-vous prêt pour ces questions?

Yuan Quan: L'intelligibilité, l'équité, ceux-ci sont très importants. Il est non seulement de donner l'occasion de fournir une excuse de l'humanité, Amnesty International a également besoin d'expliquer leur processus de prise de décision, montrant confiance, avec l'interprétabilité de prise de décision, aide à la décision et des résultats à la population. Une telle façon est que vous pouvez mettre à la prise de décisions de visualisation Les résultats ont montré, nous avons fait dans le secteur de l'électricité dans le système de recommandation, lorsque les résultats de la recommandation de production peut donner plusieurs raisons de la interprétabilité recommandation en même temps. À l'heure actuelle, nous sommes sur le plan technique, y compris interprétabilité apprentissage en profondeur des technologies liées à faire plus l'accumulation de la technologie.

AI Technology Review: Pour l'intelligence artificielle prise de décision, il y a un problème de vision est souvent parlé que si une voiture de vitesse devant le pilote automatique tout à coup d'un piéton, le ralentissement peut blesser les gens pour éviter la voiture, il ne sera pas décélération d'évitement des risques aux piétons. décision intelligente si la solution parfaite à ce problème est semblable à elle?

Yuan Quan: Autopilote cette scène que nous voyons est pas beaucoup, que brièvement sur ma compréhension de cette question.

Tout d'abord, si cela est une voiture intelligente, il y a eu de tels cas, que le temps est venu d'avoir à prendre cette décision, et cette décision est en fait un très tard le moment. En fait, la situation idéale est d'éviter de telles décisions de dilemme. Lorsque nous apprenons à conduire, le principe le plus important est la conduite défensive, la conduite défensive. Donc, si c'est un système de prise de décision vraiment intelligente, qui devrait être estimé à un accident avant qui pourrait survenir, comme sortant du piéton ou d'un chien, il y a une préparation aux situations d'urgence, alors essayez d'éviter la date tardive de la situation de prise de décision. les décisions de timing est très important, il ne faut pas manquer le meilleur moment de la décision.

En second lieu, si bien là quand cela se produit le processus de déplacement, ce principe est certainement le plus grand protecteur: la protection de la vie humaine, je pense que cela devrait être le premier principe. Il me fait penser aux trois principes de robots d'Asimov, les véhicules autonomes est en fait un robot, il ne devrait pas blesser à tout moment que le premier principe de la vie humaine. S'il est un petit dommage à la vie des piétons et des passagers, choix haut de sécurité pour faire quelque chose, je crois qu'il devrait être possible de se conformer à ces principes.

la concurrence NeurIPS Bomberman, Bomberman apprendre boîte de bombardement précis, et de trouver son chemin à travers le plus court chemin pour manger la drogue amélioration

AI Technology Review: Une utilisation intelligente de la prise de décision dans NeurIPS concurrence Bomberman de Kai algorithme d'apprentissage par renforcement de décision Yuan en cours d'exécution sur la plate-forme intelligente. Pour le jeu avec paradigme d'apprentissage par renforcement de l'apprentissage est un choix naturel, puis la prise de décision intelligente dans d'autres domaines également faire l'apprentissage de renforcement? (Par rapport à l'apprentissage plus directement supervisé)

Yuan Quan: Notre équipe a fait au cours de la dernière décennie recommande la publicité sur Internet, des images, et de nuages, beaucoup de données de marquage, cette fois-ci sur l'utilisation de l'apprentissage supervisé pour apprendre les grandes données. Mais le coût des données d'annotation est très élevé, donc nous avons souligné que En fait, l'apprentissage de renforcement est plus proche de l'homme, particulièrement proche de processus d'apprentissage naturel de l'enfant. Le renforcement en train d'apprendre non seulement peut être appliqué dans le jeu, vous pouvez également utiliser le pilote automatique. Par exemple, dans l'apprentissage du monde réel, Même si elle a accumulé des millions de kilomètres de données, vous pouvez être très difficile d'obtenir des échantillons négatifs d'information (scène de l'accident du trafic) . Mais vous êtes dans un environnement virtuel, avec l'apprentissage par renforcement à apprendre, ce qui est très facile d'obtenir des échantillons négatifs.

Ainsi, l'apprentissage par renforcement ce paradigme, il peut aller beaucoup d'autres industries en dehors du jeu, pilote automatique, après AlphaGo, peut également être utilisé pour faire des recommandations, Google doit faire avec les centres de données économes en énergie, comprend également je l'ai mentionné au réseau intelligent, peut être utilisé pour renforcer la façon d'apprendre à apprendre.

AI Technology Review: Ainsi, l'apprentissage de renforcement ont la possibilité de remplacer complètement l'apprentissage supervisé il?

Yuan Quan: Il est impossible. L'apprentissage supervisé noyau est sa rétroaction positive et négative, des échantillons d'étiquettes positives et négatives du processus d'apprentissage est en fait un signal très claire et sans ambiguïté, ce qui guidera le système d'apprentissage de la machine. Mais dans l'apprentissage de renforcement « label », qui est, récompense, en fait, est un signal faible, il est soit donné par l'environnement, que ce soit les développeurs AI spécifier. Il peut aussi penser qu'il est en fait une sorte d'approximation de signal fort d'apprentissage supervisé.

Dans certains cas, par exemple, nous avons l'apprentissage supervisé de grands volumes de données, et cette tâche très critique, la tolérance aux pannes est faible, alors le signal positif et négatif au moyen d'apprentissage supervisé, il peut apprendre encore plus clair, plus de points à apprendre le sexe. Apprentissage par renforcement apprentissage supervisé relatif, après tout, il est un domaine émergent. L'apprentissage supervisé des décennies passées du développement, de la théorie à la maturité de l'application de l'industrie est relativement élevée.

Mai 2017, Wuzhen Ke Jie a perdu à AlphaGo Master en trois Fanqi

AI Technology Review : Apprentissage par renforcement hotspot recherche en intelligence artificielle au cours des dernières années, mais il y a beaucoup de difficultés dans le processus d'apprentissage lui-même, comme vous le dites, « reproductible, réutilisabilité et de robustesse qui demeurent des défis » dans l'introduction. Ensuite, vous sélectionnez l'apprentissage par renforcement comme technologie de base direction R & D, nous pouvons parler des raisons de confiance en elle? Quelles sont les réalisations technologiques originales actuellement?

Yuan Quan: Notre équipe fondatrice a fait un grand dix dernières années de données, apprentissage supervisé après, Voir ces domaines technologiques émergents se sentent très intéressés par toute l'équipe fondatrice dans ce domaine est très passion, quelle que soit la technologie elle-même, ou jouer à des jeux sur elle. Un grand nombre de nos membres de l'équipe de fondateurs vraiment aimé les jeux de jeu, en particulier certains des plus en profondeur, jeu créatif. Mon co-fondateur et Haitao, plus d'une décennie de StarCraft beaucoup.

Il y a des raisons de se sentir en confiance, alors que dans l'analyse finale provient de la croyance en l'équipe et de renforcer l'apprentissage. Ainsi qu'un papiers AlphaGo programmeur maître, DeepMind scientifique David Silver il y a spécifiquement allé à la glace et la neige du Royaume-Uni dix ans a ouvert avec ce domaine tout l'apprentissage de l'apprentissage par renforcement Richard Sutton. Avant cette David Silver et un autre fondateur DeepMind de Demis Hassabis déjà commencé une société de jeux vidéo, plus d'une décennie à explorer le type « noir et blanc » de jeu basé sur l'IA. Ceci est la preuve de leur étude intensive de la foi.

À l'heure actuelle notre technologie accumulée au cours des deux dernières années, a produit de nombreuses réalisations technologiques de l'originalité, surtout ce jeu et des scènes de jeu ensemble. Au cours des dernières années, trois jeux sont si populaires type de jeu de jeu (MOBA). Nous avons maintenant plus de dix brevets et droits d'auteur de logiciels comme une expression de nos réalisations technologiques dans ce domaine, ainsi que la plate-forme technologique - la plate-forme de renseignement de décision Kai Yuan.

En fait, quand beaucoup de gens parlent encore de décourager l'apprentissage par renforcement du texte, parler de l'instabilité de l'apprentissage de renforcement de la formation, nous avons constamment rectification sur cette plate-forme, ce qui permet à l'agent de stabilisation de l'apprentissage et la formation en même temps. Y compris le concours de bombardier, nous chaque étape du processus de formation ne participe pas à la préparation de la règle a priori humaine, est l'agent de leur propre apprentissage, la courbe d'apprentissage est très beau, mais aussi deux corps de façon constante vers intelligents l'effet de levage.

Après cette période, nous avons gagné la course de championnat, il a été le résultat du concours d'écrire un essai (arxiv.org/abs/1812.07297), nous avons récemment présenté un document, Sur la façon de renforcer l'apprentissage et, ensemble, l'évolution de la théorie des jeux. Après l'avenir, nous organiserons l'innovation plus systématique d'entre eux, ajouter plus de résultats à partager avec le monde universitaire et l'industrie.

AI Technology Review: A ce stade, vous devez faire face (visage aussi) Quels sont les défis techniques? L'idée générale de la façon de résoudre?

Yuan Quan: Les défis techniques doivent exister encore, la profondeur de l'apprentissage de renforcement est aussi une nouvelle direction, juste tirer vers le haut.

La profondeur de l'apprentissage de renforcement dans ce sens, de notre point de vue de l'expérience et des scénarios d'affaires, La formation est un grand agent de seuil de grandes scènes et complexes. Voilà pourquoi nous essayons de la plate-forme de renseignement de décision Kai Yuan dans le but de résoudre. Juste au-dessus NIPS 2018, le Canada est l'autorité du professeur, lauréat du prix Turing Judea Pearl parlait encore de cet apprentissage peut être amélioré les problèmes de reproductibilité. Nous actuellement sur la plate-forme a accumulé beaucoup de technologie, dans une certaine mesure de résoudre ces problèmes, mais avec cet agent à grande échelle, comme agent de milliers, même dans un environnement plus complexe, plus ouvert à former, comment notre direction est de stabiliser la convergence dans l'exploration.

Un autre problème est que Comment le jeu dans un environnement d'information non complet. AlphaGo échecs est un jeu avec des informations incomplètes (les deux parties peuvent voir l'emplacement de toutes les pièces sur l'échiquier), mais essentiellement toute la scène de jeux, ainsi que la réalité de la scène de prise de décision, sont des informations incomplètes. En fait, toute personne prise de décisions sont susceptibles de prendre des décisions sur des informations incomplètes. Certains des documents que nous avons soumis est d'essayer de renforcer la théorie de l'apprentissage et jeu ensemble, pour étudier ensemble, cela est une nouvelle direction.

Du point de vue de la prise de décision, l'intelligence de prise de décision est toujours un problème de classe mondiale, le processus de prise de décision du cerveau humain sont les fonctions les plus complexes. De notre plus il y a dix ans à l'Institut Watson d'IBM pour la compréhension de la pratique d'Ali plate-forme de commerce électronique, ainsi que des décennies d'histoire du développement de la grippe aviaire dans l'étude de laboratoire du point de vue de l'informatique cognitive, principalement les aspects suivants: Premièrement, processus de prise de décision est subjectif et l'objectif, l'intégration de Sense and Sensibility, l'ordinateur actuel est bon à traiter avec la partie rationnelle peut être calculée, et ont donc besoin de mieux trajectoire d'approche de modélisation, en deuxième lieu, les facteurs qui influencent la décision de tant de personnes environnement dense informations multi-sources de prise de décision, la nécessité d'un dépistage efficace et extraire des informations utiles, alors que l'information est le raisonnement et les hypothèses inconnues. Troisièmement, les différentes industries utilisant des scènes de prise de décision intelligente exige souvent prise de décisions en temps réel, et même des décisions forte concurrence, comme l'Internet en général besoin de retourner un résultat de recommandation à l'utilisateur en millisecondes, de sorte que l'architecture du système est aussi un grand défi.

Notre avantage est basé sur le fondateur de l'équipe fondatrice au cours des dix dernières années dans les institutions de recherche de classe mondiale, l'expérience des sociétés Internet, un aperçu en profondeur et de l'expérience pratique pour l'ensemble du domaine du monde, une limite de plan de développement clair et de la technologie, et Berkeley, CMU, de nombreux experts et chercheurs bien connus à l'Université de New York ont mis en place des mécanismes de coopération en profondeur, afin de mieux la recherche technologique de renseignement de prise de décision et la recherche de pointe à la fois unifient scène d'atterrissage commerciaux.

AI Technology Review: Dernière question, vous devez travailler pendant de longues périodes à Ali, alors vous laisser ce disque d'entreprise Ali et la vision?

Yuan Quan: À partir de 2006, je recommandations personnalisées, principalement dans la recherche et articles publiés dans IBM ont dominé les cinq ou six premières années. Ali a ensuite rejoint en 2012, à gauche en 2017, merci Ali plate-forme, permettez-moi de mettre l'algorithme passé, les systèmes de recommandation expérience pour compléter l'application sur la plate-forme. Produits du téléphone Taobao, Lynx, puis double 11 projets ont utilisé avec succès vers le haut. De moi personnellement, je vous remercie beaucoup la plate-forme Ali, une étape pour réaliser leurs propres objectifs et de la mission.

Décidé à partir, parce que je pense que dans une direction, après plus d'une décennie à faire, vous pouvez venir temporairement à une fin. Et nous voyons AlphaGo représenté par la nouvelle technologie, ainsi que derrière le rêve des entreprises comme DeepMind. Je pense donc que notre équipe peut aussi essayer de nouvelles techniques et des choses nobles. est appelé Kai Yuan monde, les Anglais le nom de notre société appelée Inspir.AI, dans l'espoir d'inspirer plus de gens à utiliser AI. Par exemple, dans des scènes virtuelles dans ce jeu, vous pouvez aider les gens à faire un meilleur soutien à la décision, et donne la fourniture créative et précieux, même inspirer les gens à faire.

nous espérons l'esprit de débutant, construire Intelligence, créer de prise de décision intelligente, mondes Incuber, pour construire un monde parallèle, tels que divers jeux virtuels, des scènes virtuelles, et même VR combine des mondes parallèles, inspirer les gens, la prise de décision intelligente en aidant les gens pour stimuler la créativité des gens.

Le mois dernier, le père de l'apprentissage Richard Sutton renforcer notre entreprise pour l'inscription « Pour inspir.ai, Laissez-nous tous être inspirés! » est le meilleur encouragement pour nous!

Cliquez sur Lire l'original Pour voir la première partie de l'agent AI auto-apprentissage: processus de décision de Markov

AMD a publié la première carte graphique du monde pour les centres de 7nm données d'entreprise
Précédent
Droit d'auteur éviter la guerre, la musique peut compter mètres au tour « Les fans économiques + performance » autour d'elle?
Prochain
Nous devons changer la couleur de votre voiture?
Bonne aide! Les gestes plein d'écran les plus lisses au Andrews
Universitaires | 2018 inventaire des documents de conférence annuelle ML, PNL: Zhou Ming, Zhang Tong, rose de données Sun Maosong
position suprême en Europe sur Palace? Ceci est le plus difficile vague de panique d'achat en un seul produit que vous avez deviné?
jour mot! Visage de la femme pressé pox étoiles, les poumons pourris en fait plus de 20 trous! Il a également été presque tué
« Kowtow » vraiment? Sentiments de commercialisation « Kailash » au box-office derrière la contre-attaque
résurgence domestique, l'avenir peut être le plus cher 4 modèles SUV en voitures ont représenté un siège
KX5 a énuméré une nouvelle génération de SUV « avec le roi » est arrivé dans le champ de bataille
5 années-vieux garçon sur le bus crier à l'aide, se couvrir le nez et la bouche étaient Hei Yinv! Plus de 100 agents d'application de la loi de sauvetage
appel Wu Xiubo vous tirez les flèches, mais aussi avec votre vidéo, vous ne voulez pas le voir dans « Alliance conseiller » faire quoi?
Industrie | centre de données de Huawei passe débuts CloudEngine 16800, construit leur propre puce AI 310 sautait
Vous devez acheter le nouvel iPhone « Lucky Match nul »? la production de masse exclusive LG OLED d'Apple