Vous ne --OpenAI que je commente et DeepMind un nouvel apprentissage de renforcement, un apprentissage efficace en fonction des commentaires humains

Lei Feng réseau AI Technology Review, récemment OpenAI et DeepMind chacun a publié un document sur le site, ils ont introduit une recherche collaborative, papier à lettres, « l'apprentissage de renforcement profond des préférences humaines » (amélioration de l'étude approfondie réalisée selon les préférences de l'homme). Dans cet article, ils démontrent une nouvelle méthode d'apprentissage intensif basé sur les commentaires humains, non seulement le processus d'apprentissage est relativement efficace, et OpenAI et DeepMind des chercheurs ont partagé l'avis que dans le long terme, cette approche peut améliorer le système de renseignement de sécurité .

Le réseau suivant Lei Feng AI Technology Review vous prendre avec le regard spécifique des présentations et des démonstrations OpenAI de cette approche.

Pour mettre en place un système AI de sécurité, ce qui est très important étape est de ne pas laisser le système AI humaine pour écrire la fonction objective. En effet, si une stratégie simple pour atteindre des objectifs complexes, ou la compréhension de la cible complexe qui a mal tourné, il peut provoquer le comportement du système AI pour que les gens veulent pas voir, et parfois même dangereux. OpenAI avec l'équipe de sécurité DeepMind ensemble a développé un algorithme, il suffit de dire à deux types d'êtres humains progressivement recommandé l'action que l'on est mieux, on peut en déduire les besoins humains à apprendre.

méthodes Présentation

Cet article décrit un algorithme qui peut être alimenté pour résoudre les problèmes modernes d'apprentissage de renforcement avec un nombre relativement faible de l'être humain. Les chercheurs ont déjà été étudiés en utilisant la rétroaction humaine sur la façon de construire un système d'apprentissage de la machine, mais cette fois l'équipe a fait deux solutions de haut niveau, afin qu'il puisse également être utilisé pour effectuer des tâches plus complexes. Leur algorithme avec un deuxième retour d'élection des examinateurs de l'homme 900 backflips appris - une apparence simple, il est facile à évaluer, mais la tâche est difficile pour décrire avec précision.

Le processus global de formation est une compréhension de l'agent humain des objectifs et d'améliorer la boucle de contre-réaction en trois étapes entre l'apprentissage et de formation.

Selon l'algorithme OpenAI avec DeepMind développement conjoint de cet agent Commencez par mouvement aléatoire dans l'environnement. Puis périodiquement le fonctionnement de ses deux regarder la vidéo à un être humain, de faire la distinction entre deux types de fonctionnement humain dans les deux vidéos qui est plus proche de son objectif - dans ce cas est flip arrière - puis en sélectionnant une les commentaires, les commentaires basée sur l'intelligence artificielle de sera en mesure de trouver récompenser décrit le mieux la fonction du jugement humain, donc progressivement au modèle cible des tâches. Ensuite, il sera l'apprentissage par l'apprentissage de renforcement atteindre ses objectifs propres. Avec l'action de l'agent fait des progrès, il continuera de venir avec votre propre sensation piste la plus incertaine pour faire une paire de l'humanité que l'on est une meilleure rétroaction, puis laisser leur compréhension des objectifs de la mission d'amélioration.

Leur programme a démontré une efficacité de l'apprentissage gratifiant, comme mentionné précédemment, seulement moins de 1000 fois par seconde élection humains commentaires peuvent apprendre backflips. examinateurs humains temps passé moins d'une heure, alors que dans l'arrière-plan, cette stratégie a été synchronisé avec l'expérience globale accumulée 70 heures (la vitesse de simulation de fond est beaucoup plus rapide que la vitesse réelle). Ensuite, ils continueront d'étudier la façon de réduire le montant des besoins de l'humanité rétroaction à fournir. La présentation suivante est une image de mouvement dans leur processus de formation (version accélérée).

La formation des résultats dans un environnement de jeu

Ils robots simulés avec plusieurs tâches et jeu Atari ont testé leur méthode (et ne pas permettre au programme d'utiliser la fonction de rétroaction de l'environnement lui-même, en particulier dans le score du jeu Atari n'est pas considéré). Dans les environnements de test multiples, physique intelligente a appris d'excellentes performances grâce à la rétroaction humaine, parfois même mieux que la performance humaine. Voici quelques photos avec leurs méthodes de formation des agents jouer une variété de jeux Atari écran. Petit bar à l'extrême droite du mouvement vertical de chaque image est un indicateur, il montre que les évaluateurs prédisent la reconnaissance de l'action humaine à son agent actuel, comment élevé. Ces chiffres d'action reflète l'agent a appris ces choses en fonction des commentaires humains: savoir Seaquest dans l'eau pour compenser l'oxygène (à gauche), dans Arkanoid et flipper apprendre comment obtenir un score élevé (les deux graphiques du milieu) ou comment les écoles secondaires de la reprise Enduro (à droite) après l'accident.

Seaquest Arkanoid Pinball Enduro

Il est intéressant de noter que les évaluations fournies par les êtres humains ne peuvent pas compatibles avec la fonction normale de l'environnement prix. Par exemple, ils ont été formés avec d'autres véhicules pour maintenir un agent de rinçage précis dans l'Enduro, et il ne sera pas aussi « normale » que d'autres véhicules que jamais pour obtenir le meilleur score. Ils ont également constaté que, parfois appris du corps humain rétroaction intelligent, encore mieux que la performance de l'environnement agent de l'apprentissage amélioré de la rétroaction normale, parce que l'expression humaine que l'environnement de la récompense, récompense plus originale.

Le problème à résoudre

examinateurs humains pour déterminer quelles actions intuition Looks Correct, la performance de l'algorithme est également limité à cela, si l'humanité est pas en profondeur la compréhension de la tâche, ils fournissent des informations qui peuvent jouer un utile et très limité. Il y a un cas pertinent est que, dans certaines régions, le système a finalement appris à former un agent de tromperie leurs auteurs. Par exemple, un robot aurait ramassé l'objet, mais il mettre le robot dans le milieu de l'objet cible et l'observateur, ce robot juste Il semble que si elles sont attrapées Comme, cette image ci-dessous est un exemple.

Sur cette question, ils veulent une mesure améliorée est d'ajouter une identité visuelle (ligne blanche solide dans la figure), afin examinateurs de l'homme plus facile de juger de la profondeur. Cependant, a besoin de plus de recherches à faire approche plus générique.

OpenAI et DeepMind deux organisations ont l'intention de continuer à coopérer à l'impact à long terme sur la sécurité AI. Selon eux, une telle approche est de développer une nouvelle avancée AI de la sécurité humaine en tant que centre d'apprentissage, mais aussi pour l'apprentissage de renforcement existant, apprendre à imiter une telle méthode pour compléter et élargir.

via Blog OpenAI, Lei Feng réseau compilé AI Technology Review

Nie Yuan super aéroport fille animal poussé par une famille de trois portant des masques correspondent à la valeur élevée du yen
Précédent
Le nouveau film de John Woo « chasse »: laisser les deux hommes se battent, sans aucun doute un bon spectacle!
Prochain
« Pearl » Seiji Lafayette lingfei public photo occasionnels ont la chirurgie Total
« Appel énorme » 1208 de création clé publique de fichier donné Qi premier anti-fraude des télécommunications est apparu film Secret Inside Story
Zhao Liying est coupé? Feng Shao Feng: Réunion nouvelle étape de travail plus pour la qualité
« Pokémon » nouveaux graphiques de diffusion de la conférence de travail Résumé
premier écran de téléphone mobile de Huawei pour creuser des trous et encore les amis a frappé le visage! Cette fois-ci Samsung
2017 film de science-fiction entièrement manuel | trou du cerveau créatif propre balayage
Chine la plus haute distinction « Xia Yan Cup » primé adaptation de scénario de « nuages de chien Cang » film d'origine locale de démarrage, dit à son fils la réconciliation émotionnelle
Le point culminant d'une décennie, le retour de la série Samsung Galaxy S10 sur le champ de bataille ".
"Justice League" seigneurs de la guerre Secret Love Chine: Superman affectent les générations Nolan Batman Boom Lift
Hengyang County: faire avancer l'amende la culture traditionnelle de rappel de développement économique du comté
SAIC marque Chase a publié officiellement MAXUS, G50 marché MPV conduira à une nouvelle série de do la concurrence?
Lee Hom « a frappé le premier coup » première fans de Chine continentale chantant des larmes tête touchait le public Reporter