AI comptent sur plus vite et plus fort? La réponse est: la curiosité

[Réseau nuage de chasse (Micro Signal :)] 7 Novembre rapport (compilé: Halcyon)

L'article a commencé, d'abord à jeter une question: tous les jeux vidéo, monomaniaque en elle, vous trouverez qu'il n'a pas empêché, quelles sont les causes?

Ce problème peut être un peu large, je ne peux pas donner une réponse définitive. Mais si vous voulez prendre un nouvel emploi, ou de jouer une série de mises à jour somme, l'explication la plus simple est que la « curiosité » - juste pour voir ce qui se passe à côté. Il se trouve que les jeux vidéo quand l'intelligence artificielle dans la direction, la curiosité est une puissance très efficace.

Une étude de la firme de recherche à but non lucratif de l'intelligence artificielle OpenAI a publié cette semaine par une curieuse interprétation de l'agent AI comment surmonter le jeu Atari 1984 classique La Revanche de Montezuma. La revanche de Maître Montezuma considéré comme un grand pas en avant dans l'intelligence artificielle, mais ne peut être égal au rythme des étapes Go ou Dota 2. société d'intelligence artificielle de Google DeepMind2015, si elle est adoptée AI expliquer la profondeur de l'apprentissage dans beaucoup score de jeu Atari, a battu un joueur fort humain, la vengeance de Montezuma est le seul score du match 0 l'algorithme n'a pas réussi à apprendre à jouer à ce jeu.

La raison ne correspond pas à la grande difficulté des mensonges de jeu dans son mode de fonctionnement et l'agent AI apprentissage de la manière, il révèle aussi l'existence de l'apprentissage automatique des spots aveugles.

Pour maîtriser l'agent AI jeux vidéo de jeu, nécessite généralement l'utilisation de méthodes de formation améliorées d'apprentissage. Dans cette formation, l'agent sera placé dans le monde virtuel, et parce que certains des résultats obtenus récompense (comme fraction croissante), ou être puni (comme la perte d'une vie). AI Agent démarrer des jeux de lecture aléatoire, et peut apprendre à améliorer leurs tactiques après essais et erreurs. Apprentissage par renforcement est souvent considérée comme un moyen clé pour construire des robots intelligents.

Le problème de la turista est qu'il ne fournit pas d'incitations pour l'agent régulièrement AI. Ceci est un jeu de puzzle, les joueurs doivent explorer la pyramide souterraine, éviter les pièges et ennemis, tout en collectant les clés des portes de déverrouillage et des objets spéciaux. Si vous êtes de formation d'agent AI pour surmonter le jeu, il peut donner certaines incitations en vivant à travers les différentes salles et récupérer les clés. Mais comment voulez-vous lui apprendre à sauver d'autres éléments clés, et d'utiliser ces éléments pour surmonter les pièges et terminer le niveau il?

La réponse est: la curiosité.

Dans l'étude OpenAI, ils récompensés non seulement à cause de l'agent pour passer le pic, mais aussi d'explorer nouvelle section de la pyramide. La curiosité d'explorer de nouvelles plaques est une grande puissance, a également contribué à l'agent que la performance humaine dans le jeu, neuf points de contrôle dans le score moyen robot de 10000 (le score humain moyen 4000). OpenAI dit en un seul passage, l'agent même à travers le premier obstacle.

OpenAI de Harrison Edwards a dit The Verge: « Nous avons développé un peut explorer beaucoup de place, obtenir beaucoup de récompenses, mais aussi parfois franchir le premier obstacle du système. » Ajoutant que, semblable à d'autres niveaux du jeu avec le premier obstacle, jeu de jeu « est juste une question de temps. »

Capture "NOISY TV PROBLÈME"

laboratoire OpenAI n'est pas la première tentative de cette approche, les chercheurs d'Amnesty International depuis des décennies ont utilisé le concept de « curiosité » comme une incitation. Avant qu'ils doivent appliquer cette Revanche de Montezuma, mais sans l'aide de l'intelligence artificielle pour apprendre de l'exemple de l'être humain, il ne serait pas un tel succès.

Cependant, en dépit de la théorie générale ici, il a été mis en place, mais pour construire une solution spécifique reste difficile. Par exemple, utile que dans l'apprentissage de certains types de jeux basés sur la curiosité prédit. Il convient à ce genre de jeu Mario, au cours du jeu pour explorer un grand espace, jeu multi-niveaux, et rempli de monstres jamais vus auparavant. Mais pour ce simple jeu Pong, l'agent AI plus disposé à combattre une guerre prolongée, pas vraiment battu leurs adversaires. (Peut-être parce que le chemin pour gagner le jeu que la balle de jeu meilleure prédiction.)

Une autre expérience « problème Noisy TV », l'expérience a été programmé pour chercher de nouvelles expériences agent de l'IA pour vous faire dorloter dans un motif aléatoire, tel qu'un téléviseur à l'écoute au bruit statique. En effet, le sentiment d'agent de « intéressant » et « nouvelle » vient de leur capacité à prédire l'avenir. Avant de prendre des mesures, ils prédire la situation après le match. S'ils devinent bien, ils ont probablement vu ce niveau avant. Ce mécanisme est appelé « erreur de prédiction. »

Mais parce que le bruit statique est imprévisible, les expériences agent de AI est placé dans la tâche du labyrinthe est de trouver l'objet de plus haute récompense. Il y a aussi un environnement de télévision, un canal aléatoire peut être convertie sur la télévision avec télécommande, zappant parce que chaque résultat est imprévisible, de façon surprenante, le visage de la télévision un (ou de stimulation similaire imprévisible), un agent AI devient très confus. OpenAI cette question avec l'homme accro à la comparaison des machines à sous, les gens ne savent pas ce qui va arriver, donc ce n'est pas prêt à partir.

La nouvelle étude OpenAI AI prédire l'avenir en changeant la façon éludé adroitement la question. Méthode précise (appelée Distillation réseau aléatoire) est très complexe, Edwards et son collègue Yuri Burda être interprété comme la mise des informations cachées dans chaque écran du jeu, en attendant de creuser l'intelligence artificielle. Les tâches cachées sont aléatoires, sans beaucoup de sens (Edwards suggéré, par exemple, « De quelle couleur est le coin supérieur gauche de l'écran? »), Mais peut motiver les agents continuent d'explorer le jeu et ne pas laisser trop facilement influencé par le bruit du piège de la télévision impact.

Il convient de noter que cette incitation ne nécessite pas beaucoup de calcul, il est très important. méthode d'apprentissage par renforcement dépend de grandes quantités de données pour former l'agent AI, de sorte que les besoins de formation de chaque étape est achevée le plus rapidement possible.

Ingénieur logiciel Arthur Juliani de l'unité, est également un expert dans l'apprentissage de la machine, dit-il, c'est le point culminant des mensonges de travail de recherche OpenAI. Juliani dit The Verge: « méthode OpenAI utilisée est très simple, mais la méthode très efficace pour explorer le passé Tout au long du jeu, plus compliqué, et essentiellement le nombre de résultats impressionnants n'a pas apporté au cercle de la science et de la technologie, la comparaison, OpenAI. la méthode beaucoup plus simple ".

Juliani représente, compte tenu de la similitude entre les différents niveaux de la turista, courant OpenAI sensiblement équivalent au travail pour surmonter l'ensemble du jeu. Mais il a ajouté: « En fait, ils ne peuvent pas faire en sorte que chacun puisse franchir le premier obstacle, ce qui signifie qu'il ya encore des défis. » Juliani OpenAI veulent savoir si la méthode convient pour les jeux 3D, jeux 3D par rapport à la difficulté de d'autres possibles, plus grandes caractéristiques visuelles plus subtiles, et le jeu en vue à la première personne obscurci la majeure partie de l'interface.

« Jeu 3D, la nécessité d'explorer les scénarios, les différences entre les différentes parties de l'environnement est plus subtil, la performance réelle de cette méthode ne peut pas être très bon », a déclaré Juliani.

curiosité

Mais pourquoi nous avons d'abord besoin d'avoir la curiosité de la grippe aviaire il? Amnesty International avec curiosité, comme les humains, il est facile de se livrer à un motif aléatoire.

La principale raison est la curiosité aide l'auto-apprentissage informatique.

Maintenant, la machine largement utilisé les méthodes d'apprentissage peut être largement divisé en deux camps: d'abord, l'apprentissage de la machine en naviguant sur de grandes quantités de données, et de calculer le modèle peut être appliqué à des problèmes similaires, d'autre part, la machine est mise dans l'environnement, l'utilisation de ferraillage méthode d'apprentissage pour obtenir un certain succès, pour obtenir la récompense, qui est sous la forme d'incitations pour promouvoir la stimulation de l'apprentissage de la machine.

Les deux méthodes sont valables pour une tâche spécifique, mais pas tout à fait sur la machine elle-même, si elle est marquée des données de formation ou de l'environnement virtuel fonction design award, ne peut pas faire sans beaucoup de travail. En prévoyant l'exploration des systèmes d'intelligence artificielle des incitations propres, un travail est éliminé, comme avant que les humains ne ont pas besoin de dépenser trop d'énergie sur l'apprentissage de la machine, sous les incitations de relance, une machine capable d'apprendre indépendant.

OpenAI d'Edwards et Burda a dit qu'une telle curiosité qu'un programme de conception et de développement du système d'apprentissage informatique pour fonctionner dans le monde réel est beaucoup mieux. Après tout, avec la revanche de Montezuma, comme dans la vraie vie, souvent avec peu de récompense immédiate, nous avons tous besoin de travailler de longues heures, d'apprentissage et d'exploration afin d'être récompensés. La curiosité peut nous aider à aller de l'avant, l'ordinateur peut être en mesure d'aider.

« Maman va sauver » après que sa mère est morte pour sauver les gens ensevelis 95000 de la ligne de transmission
Précédent
boisson du soir à la fin, OK? Diététiciens donnent quelques suggestions
Prochain
groupe de prêt net présumé des dépôts illégaux du dossier public pour enquêter sur un partage des filiales technologie dérivée suspension
Choqué le monde après la mort de tir d'un combat des enfants pendant sept ans, père scientifique se suicida dans le bureau
Le vrai truc jamais! La banque centrale, suprême, suprême propagande intensive Procurature, les entreprises privées Le printemps arrive!
Interprétation de Chengdu bonheur Mot de passe: Qingming petite vacances, pourquoi ils ont choisi la voie verte?
Après Zhang Chao « examen du poumon à thorax ouvert. »
Mangez un bon dîner, faire attention à ce dîner 05h00, le corps peut être plus sain
· La réforme de l'histoire et l'ouverture de 40 ans
Chengdu a tiré le contrôle de la pollution « dix combat difficile »! la mise en uvre juillet des véhicules Six Nations
Prévention de la pollution bataille laïque, Chengdu a publié des innovations « paquet »
Qingming culte comme un accident de voiture, Jiangsu parmi les membres Yibin van capotage a causé 7 morts 3 blessés
parcs Leshan Jiazhou et coeur vert sur le feu? Ne pas paniquer, mais un exercice d'incendie de forêt complète
la police de Chengdu pour aller les véhicules d'invasion de l'exposition des voies illégales d'urgence, ainsi que des véhicules aériens sans pilote pour capturer attention!