Et DeepMind examiner ensemble comment reproduire les valeurs humaines dans l'AI

Lei Feng réseau par AI Technology Review: AI maintenant mentionné lorsque nous avons rarement penser du film « Terminator » Skynet dans la pensée qui a sa propre logique unique, que l'humanité arrive à la conclusion d ' « intelligence surhumaine » de. Cela est certainement une bonne chose, que nous savons tous à ce stade de l'AI n'a pas ce genre de capacité de la pensée logique, continuer à se développer dans la direction actuelle, il n'y aura pas, montre aussi que nous avons appris il y a toutes sortes d'utilisation du côté de la machine réalisations technologiques apprendre à résoudre des problèmes spécifiques.

Mais nous sommes également confrontés à un nouveau problème, tout comme le facteur humain de plus en plus de décisions à prendre, le modèle évalués selon les modèles, dessins et modèles espérons vraiment de l'homme, comme vous? Ou, les modèles de créateurs saisissent pleinement les données fournies par le modèle, mais les données lui-même contenu les concepteurs ne sont pas conscients des préjugés. Cette fois, nous devons comment faire?

équipe de sécurité DeepMind de cet article sur les questions connexes a fait quelques discussions et a présenté quelques idées. Il donne un aperçu récent document DeepMind: recherche proposée par « l'alignement de l'agent évolutif via la modélisation récompense une direction de recherche » dans, ce document tente de fournir une direction pour l'étude d'émission « d'alignement du corps intelligent ». Ils ont donc proposé une méthode basée sur une modélisation de l'application récursive de l'attribution, la machine en vertu du principe de la pleine compréhension de l'intention utilisateur, d'aller à résoudre des problèmes complexes dans le monde réel. Lei Feng réseau AI Technology Review compilé comme suit.

Ces dernières années, l'apprentissage de renforcement montrent la force étonnante dans de nombreux environnements de jeu complexes, du jeu Atari, échecs, à Dota 2 et Starcraft II, la performance de l'agent AI dans de nombreux domaines du complexe est rapidement au-delà de l'homme. Pour les chercheurs, le jeu est une plate-forme idéale pour essayer de tester les algorithmes d'apprentissage machine, le jeu, vous devez utiliser la capacité cognitive globale pour compléter la tâche, avec les capacités nécessaires pour résoudre les problèmes du monde réel est pas différent. De plus, les chercheurs d'apprentissage de la machine peuvent exécuter des milliers de simulations en parallèle sur le nuage, en fournissant un flux régulier de données de formation pour apprendre le système.

Le point le plus important est que le jeu ont souvent des objectifs clairs et des tâches, ainsi que le système de notation reflète le but de compléter le calendrier. Le système de notation ne sera pas seulement être en mesure de fournir un agent efficace pour l'étude intensive du signal de récompense, afin que nous puissions rapidement obtenir des commentaires, afin de déterminer les performances de l'algorithme et des cadres mieux.

Que l'agent humain est compatible avec

Cependant, le but ultime de l'IA est d'aider les gens à faire face à la réalité de la vie dans un des défis de plus en plus complexes, cependant, Ne pas donner de bons incitatifs dans la vie réelle Cela pose un défi pour l'évaluation de la performance de l'homme AI. Par conséquent, la nécessité de trouver un mécanisme de rétroaction idéal le plus rapidement possible, afin que l'IA peut bien comprendre les intentions de l'homme et d'aider les gens à atteindre leurs objectifs. En d'autres termes, nous voulons former le système AI humain avec rétroaction, afin qu'il puisse mener conformément à notre intention. A cette fin, DeepMind les chercheurs ont défini une question de « l'alignement du corps intelligent » comme suit:

Comment créer un comportement conforme à l'intention de l'agent utilisateur?

Ce problème d'alignement peut se résumer dans le cadre de l'apprentissage de renforcement, la différence est que l'agent est à travers des protocoles d'interaction pour communiquer avec les utilisateurs pour comprendre leurs intentions, plutôt que d'utiliser le signal de récompense numérique traditionnelle. Quant à la forme du protocole interactif peut avoir une variété, y compris la démonstration (l'apprentissage de l'imitation, comme robot d'apprentissage imitation Google), la tendance des préférences (résultats de l'évaluation humaine, telles que OpenAI et DeepMind de vous être mon commentaire), la meilleure action pour transmettre la récompense fonctions et ainsi de suite. Dans l'ensemble, L'une des solution d'agent d'alignement au problème est de fonctionner conformément à l'intention de la politique de l'utilisateur de créer un lieu où les machines.

papier DeepMind « d'alignement de l'agent Scalable via la modélisation de la récompense: une direction de recherche » décrit une recherche de résolution de problèmes positif « agent d'alignement » de. Sur la base des questions de sécurité passées dans les aspects de la classification et de sécurité AI AI du travail accompli par l'énoncé du problème, DeepMind les progrès accomplis à ce jour dans ces domaines est décrit, ce qui nous a inspiré pour obtenir une solution au problème de l'agent d'alignement pour former une bonne et une communication efficace, sera l'apprentissage à partir des commentaires des utilisateurs et peut prédire avec précision le système de préférences de l'utilisateur. Que ce soit une tâche relativement simple à faire face à l'actuelle ou future de plus en plus complexe, abstraite, et même au-delà de la capacité humaine à comprendre les tâches qu'ils veulent que le système peut être qualifié.

Aligner les incitations par modélisation

Le noyau de cette recherche est de DeepMind récompense modélisation . Ils vont d'abord former le modèle de récompense qui contient une rétroaction des utilisateurs, saisir les véritables intentions de l'utilisateur de cette façon. En même temps, grâce à une formation intensive pour apprendre une stratégie qui récompense le modèle de récompense pour maximiser l'effet. En d'autres termes, ils Pour en savoir quoi faire (modèle de récompense) et apprendre à le faire (stratégie) pour distinguer l'air libre.

Récompense schéma de modélisation: modèle de récompense sur la base de la formation de rétroaction de l'utilisateur, afin de mieux l'intention utilisateur de capture; en même temps, le modèle d'apprentissage par renforcement de la récompense par la formation de l'agent de fournir des incitations.

Au cours du dernier DeepMind fait un travail similaire, comme agent d'enseignement ne backflips en fonction des préférences de l'utilisateur, en fonction de l'exemple d'objet cible disposés en une forme spécifique, jouer à des jeux Atari en fonction des préférences de l'utilisateur et des présentations professionnelles (vous faites mon commentaire). À l'avenir, DeepMind Les chercheurs espèrent également élaborer un ensemble d'algorithmes, le système peut ajuster rapidement leur comportement pour adapter à l'utilisateur en fonction des commentaires des utilisateurs. (Comme la langue naturelle)

Développez le modèle d'échelle prix

À long terme, les chercheurs espèrent DeepMind modèle à l'échelle de récompense peut être étendue à une partie de l'évaluation actuelle de la capacité humaine est toujours zone relativement complexe. Pour ce faire, ils doivent améliorer la capacité de l'utilisateur d'évaluer les résultats. Par conséquent, ils vont aussi expliquer comment récursion Application de modèle de récompense: en récompensant la formation du modèle d'agent pour leur permettre d'aider dans le processus d'évaluation de l'utilisateur. Une fois que l'évaluation est faite plus simple que le comportement, ce qui signifie que le système peut passer des tâches simples à plus courantes, des tâches complexes. Des exemples de ce qui peut être considéré comme une amplification itérative (amplification itéré) de (voir les détails dans les semences « super AI » est? À des problèmes humains complexes difficiles à évaluer, vous pouvez une église AI).

Modèle schématique d'incitations récursives: incitations par la formation récursive du modèle de l'agent (le droit du petit cercle) permettra aux utilisateurs d'évaluer les résultats étant formés par l'agent (le coup droit de cercle) sortie

Illustration, par exemple par l'agent de formation veut concevoir des puces informatiques, afin d'évaluer la faisabilité de la conception de la puce proposée, nous allons former un groupe de récompenses par le modèle d'agent « assistant » pour nous aider à la référence complète de la performance de simulation de puce, calculée la performance thermique, la durée de vie estimée de la puce, des trous de sécurité trouvés et d'autres tâches. Agent sortie « assistant » les résultats aux utilisateurs d'aider à évaluer la faisabilité de la conception de la puce, l'utilisateur pourrait alors être un agent formé de conception de puces. Bien que l'agent une série de tâches « assistant » à résoudre pour les systèmes d'apprentissage d'aujourd'hui difficulté est encore un peu élevé, mais il est préférable que la puce d'ordinateur un lien direct conçu pour être facile: vous voulez concevoir des puces d'ordinateur, vous devez comprendre le processus de conception chaque élément de la tâche d'évaluation, sinon ils ne sont pas. Dans cette perspective, le modèle d'incitation récursif nous permet de fournir un « soutien » pour l'agent, afin qu'il puisse dans le cas de l'utilisateur l'intention et cohérente, de résoudre la tâche plus difficile.

face à des défis de recherche

Si vous voulez le modèle récompense à un problème complexe, il y a plusieurs défis qui attendent encore pour nous à surmonter. La figure suivante montre les défis de l'étude peuvent être confrontés 5, les étudiants intéressés peuvent accéder à du papier DeepMind, le document décrit ces défis et les solutions correspondantes.

Lorsque le défi (à gauche) pour étendre les récompenses lorsque nous rencontrerons la modélisation et les solutions les plus prometteuses (à droite)

Cela nous rappelle que le dernier d'un élément clé des problèmes d'alignement Agent: une fois pour mettre à profit l'agent dans le monde réel, nous avons d'abord besoin de prouver que l'agent utilisateur a été pleinement justifiée. À cette fin, DeepMind a proposé cinq utilisateurs pour aider à améliorer l'agent dans le texte confiance Avenues de recherche, ils sont les suivants: sélection de la conception, les tests, l'intelligibilité, la vérification formelle et la garantie théorique. Ils ont aussi une idée pleine d'ambition, et qui est de fabriquer des produits Certificat de sécurité , Principalement pour le certificat pour prouver la fiabilité du développement technologique et de formation pour améliorer la confiance des utilisateurs corps intelligente du travail.

futures directions de recherche

Bien que les chercheurs sont confiants modèle d'incitation récursive DeepMind sera l'agent aligné la formation d'une recherche très prometteuse, mais ils ne sont pas en mesure de prédire la direction du développement futur sera de savoir comment (nous avons besoin de plus de recherche!). Mais il vaut la peine de célébrer que plusieurs autres intérêts de recherche portent sur les problèmes d'alignement Agent ont également d'autres chercheurs font des réalisations:

  • l'apprentissage artificiel

  • l'apprentissage de renforcement myopes (apprentissage de renforcement myopes) (

  • l'apprentissage de renforcement inverse (apprentissage par renforcement inverse) (

  • La coopération inverse apprentissage par renforcement (https://arxiv.org/abs/1606.03137)

  • Iteration amplification (à des problèmes humains complexes difficiles à évaluer, vous pouvez une église AI)

  • En débat d'apprentissage (et les gens querelle en colère, mais l'IA et AI lutte réellement apporter la sécurité)

  • conception d'assemblage de base Smart (fondations Agent) (https://intelligence.org/files/TechnicalAgenda.pdf)

papier DeepMind aborde également les similitudes et les différences de ces types de recherche.

Comme système de vision informatique pour l'étude de la robustesse de l'entrée conflictuel pour cruciale aujourd'hui à l'application pratique de l'apprentissage de la machine, l'étude de l'alignement du corps intelligente devrait également devenir le principal système d'apprentissage de la machine clé pour le déploiement dans le monde réel complexe. En bref, la raison humaine d'être optimiste: les défis Bien que la recherche universitaire est susceptible de se développer dans une tentative de modèle de récompense, cependant, des problèmes techniques spécifiques sont certains de ces défis devraient être résolus. En ce sens, cette recherche a été prêt à mener des recherches empiriques sur la profondeur de l'agent d'apprentissage de renforcement.

Aide progrès de la recherche est très important DeepMind travaillent quotidiennement un thème. Si, en tant que chercheur, ingénieur ou généraliste de talent, intéressés à participer à la recherche DeepMind dans le passé, DeepMind Ils sont également les bienvenus pour demander à rejoindre leur équipe.

via DeepMind Safety Research, Lei Feng réseau compilé AI Technology Review

la beauté de la crème Wang Yu licence locateurs en direct, a réussi à prendre à emporter, est revenu à regarder anneau ignorant
Précédent
Pourquoi la Chine spéciale pour la voiture était si mal Tucao, les ventes sont encore si bon?
Prochain
Les meilleures chaussures Nike liste 2017! Quelle double avez-vous?
Méchant explosion Day Film | "Dumbo" de la box-office de Disney au cours des dernières années comme le "plus misérable", box-office "Bohemian Rhapsody" enregistrement
Cette valeur et plusieurs configuration des couleurs de SUV, simplement pour les jeunes et les étudiants!
55000 mosaïque de cristal Swarovski, cette paire de Nike Air Max 97 pieds pic « balle d'argent »!
Merci pour ce garçon! Li Yi Feng émis émotion et sociétés de courtage présumé contrat arrive à échéance
logiciel publicitaire intégré a été installé sur une attaque informatique Wan hommes jeu Steam trojans
Chang'an CS15 EV carte d'exposition ou déclaration seront listés officiellement cet été
Lu Wei et UU soeur de manger cela, les animaux étaient fond de la scène, il semble être l'action des gangs
« Faites tous les efforts possibles » le procès a finalement Lou Ye « nuages de pluie de fleurs du vent font, » 4 Avril publié comme prévu
Raid mastermind WORLD 2017 dans les coulisses de la conférence d'hiver! Des milliers d'articles différents avant-première!
Meizu Note9 évaluation complète Xiaolong 675 bénédiction en créant des milliers de nouvelles références de jeu
Base de données des dimensions opérationnelles de ces problèmes, comment utiliser l'apprentissage de la machine pour résoudre?