Et DeepMind examiner ensemble comment reproduire les valeurs humaines dans l'AI

Lei Feng r�seau par AI Technology Review: AI maintenant mentionn� lorsque nous avons rarement penser du film � Terminator � Skynet dans la pens�e qui a sa propre logique unique, que l'humanit� arrive � la conclusion d ' � intelligence surhumaine � de. Cela est certainement une bonne chose, que nous savons tous � ce stade de l'AI n'a pas ce genre de capacit� de la pens�e logique, continuer � se d�velopper dans la direction actuelle, il n'y aura pas, montre aussi que nous avons appris il y a toutes sortes d'utilisation du c�t� de la machine r�alisations technologiques apprendre � r�soudre des probl�mes sp�cifiques.

Mais nous sommes �galement confront�s � un nouveau probl�me, tout comme le facteur humain de plus en plus de d�cisions � prendre, le mod�le �valu�s selon les mod�les, dessins et mod�les esp�rons vraiment de l'homme, comme vous? Ou, les mod�les de cr�ateurs saisissent pleinement les donn�es fournies par le mod�le, mais les donn�es lui-m�me contenu les concepteurs ne sont pas conscients des pr�jug�s. Cette fois, nous devons comment faire?

�quipe de s�curit� DeepMind de cet article sur les questions connexes a fait quelques discussions et a pr�sent� quelques id�es. Il donne un aper�u r�cent document DeepMind: recherche propos�e par � l'alignement de l'agent �volutif via la mod�lisation r�compense une direction de recherche � dans, ce document tente de fournir une direction pour l'�tude d'�mission � d'alignement du corps intelligent �. Ils ont donc propos� une m�thode bas�e sur une mod�lisation de l'application r�cursive de l'attribution, la machine en vertu du principe de la pleine compr�hension de l'intention utilisateur, d'aller � r�soudre des probl�mes complexes dans le monde r�el. Lei Feng r�seau AI Technology Review compil� comme suit.

Ces derni�res ann�es, l'apprentissage de renforcement montrent la force �tonnante dans de nombreux environnements de jeu complexes, du jeu Atari, �checs, � Dota 2 et Starcraft II, la performance de l'agent AI dans de nombreux domaines du complexe est rapidement au-del� de l'homme. Pour les chercheurs, le jeu est une plate-forme id�ale pour essayer de tester les algorithmes d'apprentissage machine, le jeu, vous devez utiliser la capacit� cognitive globale pour compl�ter la t�che, avec les capacit�s n�cessaires pour r�soudre les probl�mes du monde r�el est pas diff�rent. De plus, les chercheurs d'apprentissage de la machine peuvent ex�cuter des milliers de simulations en parall�le sur le nuage, en fournissant un flux r�gulier de donn�es de formation pour apprendre le syst�me.

Le point le plus important est que le jeu ont souvent des objectifs clairs et des t�ches, ainsi que le syst�me de notation refl�te le but de compl�ter le calendrier. Le syst�me de notation ne sera pas seulement �tre en mesure de fournir un agent efficace pour l'�tude intensive du signal de r�compense, afin que nous puissions rapidement obtenir des commentaires, afin de d�terminer les performances de l'algorithme et des cadres mieux.

Que l'agent humain est compatible avec

Cependant, le but ultime de l'IA est d'aider les gens � faire face � la r�alit� de la vie dans un des d�fis de plus en plus complexes, cependant, Ne pas donner de bons incitatifs dans la vie r�elle Cela pose un d�fi pour l'�valuation de la performance de l'homme AI. Par cons�quent, la n�cessit� de trouver un m�canisme de r�troaction id�al le plus rapidement possible, afin que l'IA peut bien comprendre les intentions de l'homme et d'aider les gens � atteindre leurs objectifs. En d'autres termes, nous voulons former le syst�me AI humain avec r�troaction, afin qu'il puisse mener conform�ment � notre intention. A cette fin, DeepMind les chercheurs ont d�fini une question de � l'alignement du corps intelligent � comme suit:

Comment cr�er un comportement conforme � l'intention de l'agent utilisateur?

Ce probl�me d'alignement peut se r�sumer dans le cadre de l'apprentissage de renforcement, la diff�rence est que l'agent est � travers des protocoles d'interaction pour communiquer avec les utilisateurs pour comprendre leurs intentions, plut�t que d'utiliser le signal de r�compense num�rique traditionnelle. Quant � la forme du protocole interactif peut avoir une vari�t�, y compris la d�monstration (l'apprentissage de l'imitation, comme robot d'apprentissage imitation Google), la tendance des pr�f�rences (r�sultats de l'�valuation humaine, telles que OpenAI et DeepMind de vous �tre mon commentaire), la meilleure action pour transmettre la r�compense fonctions et ainsi de suite. Dans l'ensemble, L'une des solution d'agent d'alignement au probl�me est de fonctionner conform�ment � l'intention de la politique de l'utilisateur de cr�er un lieu o� les machines.

papier DeepMind � d'alignement de l'agent Scalable via la mod�lisation de la r�compense: une direction de recherche � d�crit une recherche de r�solution de probl�mes positif � agent d'alignement � de. Sur la base des questions de s�curit� pass�es dans les aspects de la classification et de s�curit� AI AI du travail accompli par l'�nonc� du probl�me, DeepMind les progr�s accomplis � ce jour dans ces domaines est d�crit, ce qui nous a inspir� pour obtenir une solution au probl�me de l'agent d'alignement pour former une bonne et une communication efficace, sera l'apprentissage � partir des commentaires des utilisateurs et peut pr�dire avec pr�cision le syst�me de pr�f�rences de l'utilisateur. Que ce soit une t�che relativement simple � faire face � l'actuelle ou future de plus en plus complexe, abstraite, et m�me au-del� de la capacit� humaine � comprendre les t�ches qu'ils veulent que le syst�me peut �tre qualifi�.

Aligner les incitations par mod�lisation

Le noyau de cette recherche est de DeepMind r�compense mod�lisation . Ils vont d'abord former le mod�le de r�compense qui contient une r�troaction des utilisateurs, saisir les v�ritables intentions de l'utilisateur de cette fa�on. En m�me temps, gr�ce � une formation intensive pour apprendre une strat�gie qui r�compense le mod�le de r�compense pour maximiser l'effet. En d'autres termes, ils Pour en savoir quoi faire (mod�le de r�compense) et apprendre � le faire (strat�gie) pour distinguer l'air libre.

R�compense sch�ma de mod�lisation: mod�le de r�compense sur la base de la formation de r�troaction de l'utilisateur, afin de mieux l'intention utilisateur de capture; en m�me temps, le mod�le d'apprentissage par renforcement de la r�compense par la formation de l'agent de fournir des incitations.

Au cours du dernier DeepMind fait un travail similaire, comme agent d'enseignement ne backflips en fonction des pr�f�rences de l'utilisateur, en fonction de l'exemple d'objet cible dispos�s en une forme sp�cifique, jouer � des jeux Atari en fonction des pr�f�rences de l'utilisateur et des pr�sentations professionnelles (vous faites mon commentaire). � l'avenir, DeepMind Les chercheurs esp�rent �galement �laborer un ensemble d'algorithmes, le syst�me peut ajuster rapidement leur comportement pour adapter � l'utilisateur en fonction des commentaires des utilisateurs. (Comme la langue naturelle)

D�veloppez le mod�le d'�chelle prix

� long terme, les chercheurs esp�rent DeepMind mod�le � l'�chelle de r�compense peut �tre �tendue � une partie de l'�valuation actuelle de la capacit� humaine est toujours zone relativement complexe. Pour ce faire, ils doivent am�liorer la capacit� de l'utilisateur d'�valuer les r�sultats. Par cons�quent, ils vont aussi expliquer comment r�cursion Application de mod�le de r�compense: en r�compensant la formation du mod�le d'agent pour leur permettre d'aider dans le processus d'�valuation de l'utilisateur. Une fois que l'�valuation est faite plus simple que le comportement, ce qui signifie que le syst�me peut passer des t�ches simples � plus courantes, des t�ches complexes. Des exemples de ce qui peut �tre consid�r� comme une amplification it�rative (amplification it�r�) de (voir les d�tails dans les semences � super AI � est? � des probl�mes humains complexes difficiles � �valuer, vous pouvez une �glise AI).

Mod�le sch�matique d'incitations r�cursives: incitations par la formation r�cursive du mod�le de l'agent (le droit du petit cercle) permettra aux utilisateurs d'�valuer les r�sultats �tant form�s par l'agent (le coup droit de cercle) sortie

Illustration, par exemple par l'agent de formation veut concevoir des puces informatiques, afin d'�valuer la faisabilit� de la conception de la puce propos�e, nous allons former un groupe de r�compenses par le mod�le d'agent � assistant � pour nous aider � la r�f�rence compl�te de la performance de simulation de puce, calcul�e la performance thermique, la dur�e de vie estim�e de la puce, des trous de s�curit� trouv�s et d'autres t�ches. Agent sortie � assistant � les r�sultats aux utilisateurs d'aider � �valuer la faisabilit� de la conception de la puce, l'utilisateur pourrait alors �tre un agent form� de conception de puces. Bien que l'agent une s�rie de t�ches � assistant � � r�soudre pour les syst�mes d'apprentissage d'aujourd'hui difficult� est encore un peu �lev�, mais il est pr�f�rable que la puce d'ordinateur un lien direct con�u pour �tre facile: vous voulez concevoir des puces d'ordinateur, vous devez comprendre le processus de conception chaque �l�ment de la t�che d'�valuation, sinon ils ne sont pas. Dans cette perspective, le mod�le d'incitation r�cursif nous permet de fournir un � soutien � pour l'agent, afin qu'il puisse dans le cas de l'utilisateur l'intention et coh�rente, de r�soudre la t�che plus difficile.

face � des d�fis de recherche

Si vous voulez le mod�le r�compense � un probl�me complexe, il y a plusieurs d�fis qui attendent encore pour nous � surmonter. La figure suivante montre les d�fis de l'�tude peuvent �tre confront�s 5, les �tudiants int�ress�s peuvent acc�der � du papier DeepMind, le document d�crit ces d�fis et les solutions correspondantes.

Lorsque le d�fi (� gauche) pour �tendre les r�compenses lorsque nous rencontrerons la mod�lisation et les solutions les plus prometteuses (� droite)

Cela nous rappelle que le dernier d'un �l�ment cl� des probl�mes d'alignement Agent: une fois pour mettre � profit l'agent dans le monde r�el, nous avons d'abord besoin de prouver que l'agent utilisateur a �t� pleinement justifi�e. � cette fin, DeepMind a propos� cinq utilisateurs pour aider � am�liorer l'agent dans le texte confiance Avenues de recherche, ils sont les suivants: s�lection de la conception, les tests, l'intelligibilit�, la v�rification formelle et la garantie th�orique. Ils ont aussi une id�e pleine d'ambition, et qui est de fabriquer des produits Certificat de s�curit� , Principalement pour le certificat pour prouver la fiabilit� du d�veloppement technologique et de formation pour am�liorer la confiance des utilisateurs corps intelligente du travail.

futures directions de recherche

Bien que les chercheurs sont confiants mod�le d'incitation r�cursive DeepMind sera l'agent align� la formation d'une recherche tr�s prometteuse, mais ils ne sont pas en mesure de pr�dire la direction du d�veloppement futur sera de savoir comment (nous avons besoin de plus de recherche!). Mais il vaut la peine de c�l�brer que plusieurs autres int�r�ts de recherche portent sur les probl�mes d'alignement Agent ont �galement d'autres chercheurs font des r�alisations:

l'apprentissage artificiel
l'apprentissage de renforcement myopes (apprentissage de renforcement myopes) (
l'apprentissage de renforcement inverse (apprentissage par renforcement inverse) (
La coop�ration inverse apprentissage par renforcement (https://arxiv.org/abs/1606.03137)
Iteration amplification (� des probl�mes humains complexes difficiles � �valuer, vous pouvez une �glise AI)
En d�bat d'apprentissage (et les gens querelle en col�re, mais l'IA et AI lutte r�ellement apporter la s�curit�)
conception d'assemblage de base Smart (fondations Agent) (https://intelligence.org/files/TechnicalAgenda.pdf)

papier DeepMind aborde �galement les similitudes et les diff�rences de ces types de recherche.

Comme syst�me de vision informatique pour l'�tude de la robustesse de l'entr�e conflictuel pour cruciale aujourd'hui � l'application pratique de l'apprentissage de la machine, l'�tude de l'alignement du corps intelligente devrait �galement devenir le principal syst�me d'apprentissage de la machine cl� pour le d�ploiement dans le monde r�el complexe. En bref, la raison humaine d'�tre optimiste: les d�fis Bien que la recherche universitaire est susceptible de se d�velopper dans une tentative de mod�le de r�compense, cependant, des probl�mes techniques sp�cifiques sont certains de ces d�fis devraient �tre r�solus. En ce sens, cette recherche a �t� pr�t � mener des recherches empiriques sur la profondeur de l'agent d'apprentissage de renforcement.

Aide progr�s de la recherche est tr�s important DeepMind travaillent quotidiennement un th�me. Si, en tant que chercheur, ing�nieur ou g�n�raliste de talent, int�ress�s � participer � la recherche DeepMind dans le pass�, DeepMind Ils sont �galement les bienvenus pour demander � rejoindre leur �quipe.

via DeepMind Safety Research, Lei Feng r�seau compil� AI Technology Review

Route de la soie

Apprenez � conna�tre la Chine

Et DeepMind examiner ensemble comment reproduire les valeurs humaines dans l'AI