Vous ne --OpenAI que je commente et DeepMind un nouvel apprentissage de renforcement, un apprentissage efficace en fonction des commentaires humains

Lei Feng r�seau AI Technology Review, r�cemment OpenAI et DeepMind chacun a publi� un document sur le site, ils ont introduit une recherche collaborative, papier � lettres, � l'apprentissage de renforcement profond des pr�f�rences humaines � (am�lioration de l'�tude approfondie r�alis�e selon les pr�f�rences de l'homme). Dans cet article, ils d�montrent une nouvelle m�thode d'apprentissage intensif bas� sur les commentaires humains, non seulement le processus d'apprentissage est relativement efficace, et OpenAI et DeepMind des chercheurs ont partag� l'avis que dans le long terme, cette approche peut am�liorer le syst�me de renseignement de s�curit� .

Le r�seau suivant Lei Feng AI Technology Review vous prendre avec le regard sp�cifique des pr�sentations et des d�monstrations OpenAI de cette approche.

Pour mettre en place un syst�me AI de s�curit�, ce qui est tr�s important �tape est de ne pas laisser le syst�me AI humaine pour �crire la fonction objective. En effet, si une strat�gie simple pour atteindre des objectifs complexes, ou la compr�hension de la cible complexe qui a mal tourn�, il peut provoquer le comportement du syst�me AI pour que les gens veulent pas voir, et parfois m�me dangereux. OpenAI avec l'�quipe de s�curit� DeepMind ensemble a d�velopp� un algorithme, il suffit de dire � deux types d'�tres humains progressivement recommand� l'action que l'on est mieux, on peut en d�duire les besoins humains � apprendre.

m�thodes Pr�sentation

Cet article d�crit un algorithme qui peut �tre aliment� pour r�soudre les probl�mes modernes d'apprentissage de renforcement avec un nombre relativement faible de l'�tre humain. Les chercheurs ont d�j� �t� �tudi�s en utilisant la r�troaction humaine sur la fa�on de construire un syst�me d'apprentissage de la machine, mais cette fois l'�quipe a fait deux solutions de haut niveau, afin qu'il puisse �galement �tre utilis� pour effectuer des t�ches plus complexes. Leur algorithme avec un deuxi�me retour d'�lection des examinateurs de l'homme 900 backflips appris - une apparence simple, il est facile � �valuer, mais la t�che est difficile pour d�crire avec pr�cision.

Le processus global de formation est une compr�hension de l'agent humain des objectifs et d'am�liorer la boucle de contre-r�action en trois �tapes entre l'apprentissage et de formation.

Selon l'algorithme OpenAI avec DeepMind d�veloppement conjoint de cet agent Commencez par mouvement al�atoire dans l'environnement. Puis p�riodiquement le fonctionnement de ses deux regarder la vid�o � un �tre humain, de faire la distinction entre deux types de fonctionnement humain dans les deux vid�os qui est plus proche de son objectif - dans ce cas est flip arri�re - puis en s�lectionnant une les commentaires, les commentaires bas�e sur l'intelligence artificielle de sera en mesure de trouver r�compenser d�crit le mieux la fonction du jugement humain, donc progressivement au mod�le cible des t�ches. Ensuite, il sera l'apprentissage par l'apprentissage de renforcement atteindre ses objectifs propres. Avec l'action de l'agent fait des progr�s, il continuera de venir avec votre propre sensation piste la plus incertaine pour faire une paire de l'humanit� que l'on est une meilleure r�troaction, puis laisser leur compr�hension des objectifs de la mission d'am�lioration.

Leur programme a d�montr� une efficacit� de l'apprentissage gratifiant, comme mentionn� pr�c�demment, seulement moins de 1000 fois par seconde �lection humains commentaires peuvent apprendre backflips. examinateurs humains temps pass� moins d'une heure, alors que dans l'arri�re-plan, cette strat�gie a �t� synchronis� avec l'exp�rience globale accumul�e 70 heures (la vitesse de simulation de fond est beaucoup plus rapide que la vitesse r�elle). Ensuite, ils continueront d'�tudier la fa�on de r�duire le montant des besoins de l'humanit� r�troaction � fournir. La pr�sentation suivante est une image de mouvement dans leur processus de formation (version acc�l�r�e).

La formation des r�sultats dans un environnement de jeu

Ils robots simul�s avec plusieurs t�ches et jeu Atari ont test� leur m�thode (et ne pas permettre au programme d'utiliser la fonction de r�troaction de l'environnement lui-m�me, en particulier dans le score du jeu Atari n'est pas consid�r�). Dans les environnements de test multiples, physique intelligente a appris d'excellentes performances gr�ce � la r�troaction humaine, parfois m�me mieux que la performance humaine. Voici quelques photos avec leurs m�thodes de formation des agents jouer une vari�t� de jeux Atari �cran. Petit bar � l'extr�me droite du mouvement vertical de chaque image est un indicateur, il montre que les �valuateurs pr�disent la reconnaissance de l'action humaine � son agent actuel, comment �lev�. Ces chiffres d'action refl�te l'agent a appris ces choses en fonction des commentaires humains: savoir Seaquest dans l'eau pour compenser l'oxyg�ne (� gauche), dans Arkanoid et flipper apprendre comment obtenir un score �lev� (les deux graphiques du milieu) ou comment les �coles secondaires de la reprise Enduro (� droite) apr�s l'accident.

Seaquest Arkanoid Pinball Enduro

Il est int�ressant de noter que les �valuations fournies par les �tres humains ne peuvent pas compatibles avec la fonction normale de l'environnement prix. Par exemple, ils ont �t� form�s avec d'autres v�hicules pour maintenir un agent de rin�age pr�cis dans l'Enduro, et il ne sera pas aussi � normale � que d'autres v�hicules que jamais pour obtenir le meilleur score. Ils ont �galement constat� que, parfois appris du corps humain r�troaction intelligent, encore mieux que la performance de l'environnement agent de l'apprentissage am�lior� de la r�troaction normale, parce que l'expression humaine que l'environnement de la r�compense, r�compense plus originale.

Le probl�me � r�soudre

examinateurs humains pour d�terminer quelles actions intuition Looks Correct, la performance de l'algorithme est �galement limit� � cela, si l'humanit� est pas en profondeur la compr�hension de la t�che, ils fournissent des informations qui peuvent jouer un utile et tr�s limit�. Il y a un cas pertinent est que, dans certaines r�gions, le syst�me a finalement appris � former un agent de tromperie leurs auteurs. Par exemple, un robot aurait ramass� l'objet, mais il mettre le robot dans le milieu de l'objet cible et l'observateur, ce robot juste Il semble que si elles sont attrap�es Comme, cette image ci-dessous est un exemple.

Sur cette question, ils veulent une mesure am�lior�e est d'ajouter une identit� visuelle (ligne blanche solide dans la figure), afin examinateurs de l'homme plus facile de juger de la profondeur. Cependant, a besoin de plus de recherches � faire approche plus g�n�rique.

OpenAI et DeepMind deux organisations ont l'intention de continuer � coop�rer � l'impact � long terme sur la s�curit� AI. Selon eux, une telle approche est de d�velopper une nouvelle avanc�e AI de la s�curit� humaine en tant que centre d'apprentissage, mais aussi pour l'apprentissage de renforcement existant, apprendre � imiter une telle m�thode pour compl�ter et �largir.

via Blog OpenAI, Lei Feng r�seau compil� AI Technology Review

Route de la soie

Apprenez � conna�tre la Chine

Vous ne --OpenAI que je commente et DeepMind un nouvel apprentissage de renforcement, un apprentissage efficace en fonction des commentaires humains

m�thodes Pr�sentation

La formation des r�sultats dans un environnement de jeu

Le probl�me � r�soudre