R�sum� | Union Fr�re Institut Sydney AI Ho Shi Yue: le renforcement des cours bas�s algorithme de classification d'images multi-�tiquettes

AI Technology Review par: Par rapport � la classification d'une seule image �tiquette, la classification d'images est une m�thode multi-�tiquette est plus conforme aux lois objectives du monde r�el, en particulier dans l'annotation s�mantique des images et des vid�os, a �t� largement utilis� la recherche d'images sur le terrain et ainsi de suite.

Lei canal universitaire de r�seau Feng projet de base de donn�es AI Technology Review "facteur d'impact AI", l'Union Fr�re Institut Sydney AI avec quatre documents accept�s de CVPR, 820 millions $ de la s�rie C ronde de financement, scientifique en chef AI Tao, grand �lu Australian Academy of Sciences performance impressionnante est venu � facteur d'impact AI � � l'avant-garde.

R�cemment, � GAIR Auditorium, l'Universit� de P�kin, ma�trise en vision par ordinateur Ho Shi Yue, a partag� son exp�rience avec l'apprentissage de la m�thode et de renforcement pour r�soudre le probl�me de la classification des images multi-�tiquettes. Ouvrir l'adresse de lecture vid�o de classe: http: //www.mooc.ai/open/course/499

Ho Shi Yue, l'Universit� de P�kin Master of Computer Vision, Union des �tudiants de l'Institut fr�re AI Sydney, les grandes orientations de recherche pour l'apprentissage de renforcement, l'apprentissage en profondeur.

sujet Partager

Renforcer les cours algorithme de classification d'images multi-label

grandes lignes de l'action

Bas� sur le m�canisme du cours d'�tude, nous proposons une m�thode pour renforcer la classification multi-�tiquettes pour simuler le processus de difficile � pr�dire humain d'�tre facile � �tiqueter.
Cette approche permet une �tude de l'�tiquette de l'agent de renforcement pr�dite en fonction des caract�ristiques de l'image et les �tiquettes pr�vus de mani�re s�quentielle. De plus, il est un prix tout en cherchant un moyen d'obtenir la strat�gie optimale maximale, de sorte que la plus grande pr�cision de la classification d'image du multi-�tiquette.
Dans une t�che r�elle multi-onglet, renforcer la n�cessit� et l'efficacit� de cette m�thode de classification d'images multi-�tiquettes.

Ce qui suit est la part de la consolidation de la technologie AI examen:

Union Fr�re a �t� cr�� en 2012, est un leader mondial dans l'intelligence artificielle et de la soci�t� robotique humano�de, nous avons lanc� un robot humano�de de consommateurs s�rie Alpha, la programmation �ducation STEM robot intelligent Jimu, robots de services intelligents Cruzr plate-forme de nuage commercial et d'autres marchandises, et se sont install�s avec succ�s dans le monde Apple Store.

En outre, l'Union Fr�re aussi avec l'Universit� de Tsinghua a mis en place un laboratoire commun de robots de services intelligents, mis en place avec l'Universit� de Sydney Institut de l'intelligence artificielle, Universit� Huazhong des Sciences et mis en place un robot de laboratoire commun, servocommandes dans l'algorithme de contr�le de la marche du robot humano�de , vision artificielle, de la parole / compr�hension s�mantique, reconnaissance des �motions, U-SLAM (localisation et cartographie simultan�es) disposition des champs de profondeur et analogues. 2018, Union Fr�re a compl�t� une ronde C de l'�valuation financement de 5,0 milliards $.

Avant d'expliquer, je tiens � remercier mes coll�gues, ils �tudient et travaillent me ont donn� beaucoup d'aide, en commen�ant par le Dr Guo Tianyu, le Dr Xu Chang, professeur Xu Chao, professeur Cheng Tao grand.

Le contenu principal a commenc� � pr�senter aujourd'hui � partager, d'abord introduit la classification d'images multi-�tiquettes (classification d'images multi-�tiquettes), la classification d'images multi-�tiquette, par d�finition, fait r�f�rence � une image a plusieurs �tiquettes.

classification d'image unique d'�tiquettes classiques signifie qu'une vue ne dispose que d'une �tiquette, tel que le jeu de donn�es de reconnaissance de chiffres manuscrits Mnist: un nombre de 0 � 9 d'une seule �tiquette, une carte; ImagineNet, 1000 a un ensemble d'�tiquettes de donn�es, chaque la figure correspond seulement � une balise. Mais dans la vraie vie, une image est souvent appartiennent � plusieurs �tiquettes, comme une image avec des tables, est susceptible d'avoir des bouteilles, des tables et des �tiquettes de bouteilles sont cette image, la l�gende suivante est donn�e de nombreuses �tiquettes :

La figure (A), une �tiquette: tigre, neige, tigres de Sib�rie; (b) de l'�tiquette:. Tigre, neige, arbres, tigres de Sib�rie

Ces deux illustrations sont l'image multi-�tiquettes, une pluralit� d'objets de dessin, constitu� d'une pluralit� d'�tiquettes d'objet � �tiqueter l'image enti�re, ces derni�res ann�es, ces m�thodes de classification multi-�tiquettes ont une vari�t� d'applications, annotation s�mantique tels que l'image, l'annotation s�mantique vid�o, ainsi que la recherche d'images par le contenu et similaires.

Par rapport � la classification d'une seule image �tiquette, la classification d'images multi-�tiquettes a quelques difficult�s:

Une difficult�, il existe une relation symbiotique entre une vari�t� d'�tiquettes, telles que le ciel et les nuages, il y a une image dans le ciel, de gros nuages peuvent aussi avoir
Difficult�s En second lieu, la relation entre les dimensions de cette balise est �lev�e, le mod�le difficile � mesurer
Difficult�s Troisi�mement, de nombreuses balises s�mantiques se chevauchent, comme chat et chaton tout se r�f�rant au chat, de sorte que les deux �tiquettes se chevauchent s�mantiquement
Ces derni�res ann�es, l'image de la classification multi-�tiquette a une grande vari�t� de recherches, d'introduire les travaux connexes suivants.

Une image de classification multi-�tiquette d'une pratique courante consiste � �mettre plusieurs onglets en un seul probl�me d'�tiquette, le plus repr�sentatif est de Binary m�thode Pertinence, qui est, nous le disons souvent que la m�thode BR, en supposant qu'il y a trois �tiquettes, puis ici il 3 classificateurs, chacune correspond classificateur classificateur � deux entr�es X, apr�s trois classificateurs, respectivement Y1, Y2 et Y3, leurs valeurs sont 0 ou 1, si la valeur est 0, cela signifie que l'�tiquette ne fait pas partie de l'image, si elle est de 1, cela signifie que l'image appartient � l'�tiquette.

A propos de la s�lection de classificateur BR est vari�, il a �t� l'utilisation de CNN, utilisait �galement un arbre de d�cision. Ces derni�res ann�es, nous utilisons CNN comme une classification de base, puis de former avec la perte du classement et la perte d'entropie crois�e, mais ces m�thodes ont un probl�me commun, ils ignorent la corr�lation entre les �tiquettes. Mais dans les probl�mes de classification des images multi-�tiquettes, la corr�lation entre l'�tiquette r�pandue.

Comment mesurer la corr�lation entre l'�tiquette?

Une m�thode simple consiste � utiliser la balise pour d�duire la pr�dits sur l'�tiquette en cours, � savoir, une m�thode dans l'ordre pr�vu, l'ordre de la m�thode de pr�diction est un exemple typique d'une cha�ne de classificateurs m�thode, le droit est une cha�ne de classificateurs de sch�ma, qui est plus que Binary proc�d� Pertinence de plus de quelques lignes, qui est, � partir de la ligne Y2 � Y1, Y2 � Y3 de la ligne, ainsi que de Y1 � Y3, le d�but, l'entr�e X dans le classificateur, et d'obtenir Y1, Y1 et X comme entr�e, par l'interm�diaire d'un classificateur obtenu Y2, X, Y1, Y2 et ensuite utilis� comme entr�e, par l'interm�diaire d'un classificateur pour obtenir Y3, qui est, l'�tiquette pr�vue derri�re la face avant ont �tiquette d�pendante pr�dit, le proc�d� de la cha�ne de classificateur besoin d'un ordre fixe, et cet ordre est � l'avance d�cid�, classificateur m�thode de la cha�ne est tr�s sensible � l'ordre, afin de r�duire l'impact de l'ordre, cha�ne de classificateurs ont une vari�t� de variantes, comme ECC (Ensemble Cassifier Chain), est d'utiliser des moyens d'ensemble pour am�liorer la performance classificateur cha�ne, en plus, il y a un C Proc�d� NN-RNN.

m�thode CNN-RNN pour extraire l'information s�mantique de l'image avec CNN, puis � la relation RNN entre l'image et le mod�le d'�tiquette, mais cette m�thode n�cessite �galement une bonne s�quence donn�e � l'avance.

De plus, il existe certains mod�les de la figure, comme indiqu� ci-dessous.

La figure (� gauche) est le m�canisme symbiotique entre l'�tiquette; (� droite) du m�canisme symbiotique entre l'�tiquette transform� en un mod�le de graphe, afin de r�soudre les probl�mes par carte de solution mod�le de classification de l'image multi-�tiquette, mais ce param�tre de proc�d� plus, pour r�soudre plus complexe.

Les m�thodes existantes ne sont pas une image pr�disaient l'�tiquette est pr�vue de mani�re s�quentielle, mais n�cessitent l'avance bon ordre, et l'ensemble des donn�es sont g�n�ralement donn�s une s�quence, qui est humaine, les m�thodes d'apprentissage des animaux contraire. Un genre d'humains et les animaux suivent g�n�ralement du simple au complexe type d'ordre, qui est, nous disons souvent difficile facile d'abord. En biologie, ce genre de m�canisme est appel� m�canisme de cours, ICML 2009 m�canisme propos� de ce cours d'�tude, et peut �tre v�rifi�e en changeant l'ordre d'apprentissage (connaissance organisation simple), d'am�liorer l'efficacit� de l'apprentissage de la machine .

Ce qui pr�c�de est un exemple simple, la figure (rang�e du haut) sont quelques-uns des chiens plus facilement reconnaissable photos, plan (rang�e du bas) sont plus difficiles � identifier l'image du chien.

Utiliser programme d'apprentissage pour r�soudre le probl�me de l'apprentissage en profondeur, relativement facile � �tudier ces �chantillons (en haut), vont apprendre ces �chantillons relativement durs ci-dessous, et donc d'am�liorer les performances et plus propice � son algorithme converge ici nous allons �tendre le m�canisme de ce cours est de publier le classement multi-�tiquettes d'images.

Figure (� gauche), le bateau est tr�s visible, de sorte que cette image est un bateau relativement facile appartenant � l'�tiquette, mais la personne sur le bateau a �t� partiellement bloqu�, alors personne est plus difficile de pr�dire l'�tiquette. s�quence humaine image pr�dite est alors pr�vu pour pr�dire personne bateau qui suit le cours du m�canisme des personnes du simple au complexe. (� droite), on voit d'abord est plus important � chat �, donc � chat � est relativement facile dans l'�tiquette, voir une occlusion partielle du � canap� � derri�re, de sorte que le � canap� � est �tiquette relativement complexe, il suit aussi le cours de l'�tude du m�canisme de facile � des personnes difficiles.

En fait, pour l'homme et les animaux, la m�me s�quence d'�tirage ne soit pas un objet fixe, leur ordre selon la taille de l'objet dans l'image, certains des liens entre la s�mantique de ces facteurs, l'ensemble des donn�es � une s�quence pr�d�termin�e ne r�pond pas aux m�canisme de cours de personnes, par cons�quent, nous proposons une m�thode bas�e sur le renforcement de cours de plusieurs �tiquettes d'�tude, de sorte que l'apprentissage par renforcement des agents bas�s sur la relation entre le contenu et l'image de l'�tiquette, � savoir l'ordre de la fa�on de pr�dire et de pr�vision.

En second lieu, le vrai syst�me d'annotation d'images, g�n�ralement � l'utilisateur de t�l�charger une photo, le syst�me recommandera plusieurs balises pour vos utilisateurs, il vous donnera des commentaires, compte tenu de la face de l'�tiquette, l'utilisateur sera donn� des commentaires. Ces commentaires rarement �t� �tudi�s, les informations contenues dans cet article, nous allons commentaires sont int�gr�s dans le processus d'apprentissage multi-�tiquettes.

Nous avons mentionn� ci-dessus sont l'apprentissage de renforcement utilis� pour l'apprentissage des probl�mes de classification multi-�tiquette, ici nous arrivons � un apprentissage bref de renforcement.

Apprentissage par renforcement est une branche importante de l'apprentissage de la machine, et de renforcer l'apprentissage et diff�re d'autres types d'apprentissage de la machine est que tout d'abord il n'y a pas d'apprentissage de renforcement de signal d'enseignant, tel qu'il n'a pas d'�tiquette, juste r�compense. Renforcement d�lai de retour d'apprentissage, ne peut pas �tre une r�troaction imm�diate. Le renforcement de l'�quivalent s�rie de donn�es d'entr�e d'apprentissage, ce qui est d'un �tat � un autre. donn�es am�lior�es apr�s l'op�ration d'apprentissage entre l'agent aura une incidence.

La figure (� gauche) est un apprentissage de renforcement de l'agent, (� droite) est l'environnement. Le renforcement de l'agent d'apprentissage par essais et l'apprentissage d'erreur gr�ce � l'interaction continue avec l'environnement, pour atteindre l'objectif de la strat�gie optimale.

Apprentissage par renforcement a trois �l�ments, le premier �l�ment est l'�tat de l'Etat, le deuxi�me �l�ment est l'action d'action, le troisi�me �l�ment est la r�compense. Lorsque le temps t, l'�tat de l'agent est St, par l'observation de l'environnement, de prendre des mesures �, la temp�rature ambiante tandis que l'environnement de r�action, dans l'�tat suivant St + 1, r�p�ter le processus jusqu'� ce que la fin de l'interaction. Ceci est un processus fondamental de l'am�lioration de l'apprentissage.

En outre, il existe de nombreuses applications pour renforcer l'apprentissage, comme dans la plupart du jeu Atari, marquant agent de renforcement pour en savoir plus qu'humain, AlphaGo (apprentissage de renforcement et est le Monte Carlo Arbre Recherche (UCT) ensemble ), le renforcement de l'agent � l'�tude peut gagner le championnat du monde, dans le champ de texte, vous pouvez utiliser l'algorithme d'apprentissage de renforcement pour g�n�rer du texte bas� sur l'image, dans le champ d'image, diagramme (en bas � droite) est un exemple de l'utilisation de la d�tection cible am�lior�e de l'apprentissage � faire.

Voici quelques images de l'apprentissage am�lior� la classification multi-�tiquettes.

Tout d'abord, nous allons expliquer bri�vement qui utilisent des symboles, X (majuscule) est la langue d'entr�e, Y (majuscule) est un ensemble d'�tiquettes, s'il y a �tiquette m, puis l'�tiquette de c'est compris entre 1 et m. x (minuscule) est un exemple de l'entr�e, o� l'on se r�f�re g�n�ralement � une image, y (minuscule) appartenant � baliser cet exemple, s'il y a des exemples de tags K, puis y = {y1, yk}, yi correspondant � la i-i�me �tiquette appartient � x.

Nous renforcerons cette m�thode d'apprentissage et de le comparer commun sous la direction des m�thodes d'apprentissage dans la m�thode d'apprentissage traditionnel supervis�, dans la formation de, x, y est connu, qui est, l'entr�e et la sortie X Y lorsque l'on conna�t la formation, notre �tude est une application de X � Y, mais pas dans les probl�mes d'apprentissage par renforcement �tiquette, Y qui est inconnu, que les commentaires que nous obtenons est p, dans un moment, l'entr�e est x, des mesures sont prises zi, get une r�troaction zi: pi. En g�n�ral, pi appartient � {-1, + 1} ces deux valeurs, ce qui refl�te la qualit� de l'�tiquette des �tiquettes recommand�es, -1 valeur recommand�e obtenu un bon retour, ce retour recommand� + 1 signifie une bonne �tiquette obtenue a.

Dans cette op�ration, nous avons mod�lis� ce processus de cr�ation d'une s�quence d'images dans un processus de Markov de processus de Markov comporte cinq �l�ments, S, A, R, T, .

S: espace d'�tat (espace d'�tat)
A: un ensemble d'actions, l'ensemble d'action est g�n�ralement limit�e
R: obtenu apr�s l'�tat d'ex�cution S, pour effectuer des actions Une s�rie de R sera de l'espace, l'espace d�sign� par R, R sont g�n�ralement {-1, + 1}, d'effectuer une mesure qui refl�te la qualit� du retour d'information A
T: A pour obtenir l'ex�cution d'un �tat suivant dans l'�tat S, l'�tat est la transition entre la
: appartenant �
: ici fait r�f�rence � la strat�gie que nous voulons trouver est une application de S � A

Tout d'abord nous introduisons le premier long-m�trage, A, qui est action.

Un agent qui est une op�ration pour s�lectionner une �tiquette pour un dessin, dans lequel probl�me de classification de l'image multi-�tiquette, selon le fonctionnement de l'ensemble A et l'ensemble de l'�tiquette, si un jeu de donn�es d'�tiquettes de m, il a l'action de m, (� gauche) correspond � un ensemble d'�tiquettes de cet ensemble de donn�es, il a une personne, chat, v�lo et canap� balises et il correspond � l'action d�finie a, respectivement, ce qui correspond � la personne par exemple 1, chat correspondant � 2, onze la correspondance.

�tat S, �tat

L'�tat S est r�gl�e � une repr�sentation binaire, le premier �l�ment est un �l�ment de tuple f (caract�ristique) de l'image, le deuxi�me �l�ment est l'histoire des mesures h, de sorte que S = (f, h), chaque �tat tous appartiennent � l'ensemble de l'espace d'�tat.

tout, premier long m�trage de f est enti�rement connect� � partir d'une couche de VGG16, vecteur 4096 dimensions extrait, VGG16 a �t� bonne dans la formation IMAGEnet ci-dessus, mais aussi besoin d'�tre de retour dans la formation sur des ensembles de donn�es multi-�tiquettes, c'est parce que IMAGEnet et multi ensemble de donn�es d'�tiquette de l'�tiquette peut ne pas �tre exactement la m�me, par rapport � une seule �tiquette IMAGEnet cette s�rie de donn�es en termes de relations s�mantiques et spatiales ensembles de donn�es multi-�tiquettes seront plus complexes, donc retour � la formation sur des ensembles de donn�es muti-�tiquette tr�s n�cessaire.

Le deuxi�me �l�ment h tuple, h est un vecteur r�el, repr�sentant de l'�tiquette pr�c�demment pr�dit, � savoir l'�pisode De l�, l'heure actuelle jusqu'� ce que toutes les �tiquettes que l'on appelle pr�dit l'histoire de l'action, chacun correspond � une action un nombre M, donc nous avons cod� dans chacun d'un vecteur de mouvement, cette action que si le fonctionnement du M, puis chaque action est cod�e dans un vecteur de bits M-1, est le (inf�rieur) de formule , e repr�sente chaque op�ration de codage.

Figure sur un exemple sp�cifique, le temps initial, ce chiffre ne pr�dit pas une �tiquette sur la page d'�tiquettes est vide, puis nous proc�dons � sa premi�re action est de pr�dire son �tiquette est une personne, a trouv� dans ce tableau � l'int�rieur de la personne de l'�tiquette, puis l'ajouter � l'histoire de l'action � l'int�rieur. Dans le temps o� t = 3, voiture de l'�tiquette pr�vue, puis la voiture ajout�e � l'int�rieur de l'histoire de l'action, � l'instant t = 4, pr�dit l'arbre de l'�tiquette, de sorte que l'arbre puis ajout� � l'histoire de l'action � l'int�rieur, afin que nous puissions voir �, de l'�tat initial jusqu'� la fin de cet �pisode, il est l'histoire d'action est vide du d�but � remplir essentiellement certaines des �tiquettes, regardez le tableau (� gauche), nous venons de dire, chaque action est mod�lis� en tant que M -1 vecteur de position, si nous prenons n actions que l'histoire d'action, puis dimension h est n * (M-1).

Puis Transitions T, dans notre processus de MDP (processus de d�cision de Markov), T est fixe, c'est-�-dire pour un �tat et d'action, le nouvel �tat, il peut atteindre est fix�, c'est-�-dire s mesures prises dans un un �tat, ne peut atteindre la valeur suivante �tat sp, � savoir, l'image ci-dessus � la formule: T (s, a) = T ((f, h) a) = (f, h � ). Pour un �pisode cette fonctionnalit� car elle, image caract�ristique est inchang�e, VGG16 sont enti�rement connect�, le changement est que l'histoire de l'action.

fantaisie figure (partie inf�rieure), l'image est entr�e dans la propri�t� extraite VGG164.096 dimension couches enti�rement connect�es, la composition de cette fonction f. Ici, nous supposons avoir pr�dit une personne de l'�tiquette, il en est ainsi son histoire d'action, qui constituent ensemble l'�tat de l'art. Dans l'heure actuelle, nous pr�voyons une voiture =, obtenir l'�tat suivant, changement d'�tat est d'ajouter le m�me dans l'histoire de l'action, ajoutez cette voiture � la liste historique des actions pour obtenir un �tat d, pour chaque apr�s que l'�tat concern�, il a fallu chaque op�ration de fixation, il obtient le prochain �tat de est unique.

Dans un sc�nario r�el, ce sont des commentaires discrets (r�compense est discret), mais ici afin de simplifier le probl�me, nous r�compenserons fix�s pour un moment: Si c'est le retour est bon, il sera mis � 1 r�compense si ce n'est pas bon feedback, ce sera la r�compense est fix� � -1, la fa�on d'�valuer le bien et le mal?

Dans ce probl�me, si elle est l'�tiquette choisie est juste, alors nous pensons qu'il est bon, si elle ne pas appartenir � l'image de l'�tiquette s�lectionn�e, il est consid�r� comme mauvais. (En bas) est un exemple sp�cifique, dans le m�me �tat, il faut choisir l'op�ration, si elle est une voiture ou action s�lectionn�e Arbre, cela signifie que deux �tiquettes appartiennent � l'image, qu'il a pris, � r = + 1 sera l'�tiquette. S'il est un chien ou un tag s�lectionn� bus, il montre les deux balises ne sont pas de cette image, que mal, get r = -1.

Ceci est un exemple d'une s�quence pr�dite, le montre l'exemple plus clairement comment configurer r, au d�but de l'image � cheval sont deux �tiquettes et par personne, si je donne cette image une �tiquette � chien �, ce � chien � est pas appartiennent � cette image, il obtiendra une r�compense = -1. Si l'�tiquette d'un cheval ou d'une personne, ces deux �tiquettes appartiennent � cette image, ils recevront une r�compense = + 1, bien s�r, d'autres en pr�vision �tiquet�s et la r�compense qu'ils re�oivent de -1. Apr�s avoir s�lectionn� le chien de l'�tiquette, nous pr�disons qu'il choisira l'�tiquette suivante, si elle est de pr�dire l'�tiquette suivante est le cheval, ce qui signifie qu'il a choisi le droit, donner une r�compense = + 1. Si elle est s�lectionn�e personne � c�t� de l'�tiquette, nous croyons aussi qu'il a choisi le droit. Bien s�r, si le cheval la prochaine mauvaise �tiquette, lui donner un -1 si elle est l'�lection de la prochaine �tiquette, donner +1, de l'autre c�t� aussi.

On calcule alors la r�compense globale de ces deux �tapes et peut �tre consid�r�e comme une r�compense pour l'�lection, une r�compense si faux, et leur r�compense globale est 0 que lorsque les deux �tiquettes sont cueillies, comme le cheval, personne ou personne, cheval, il r�compensera = + 2, les autres situations seront 0 ou -2. Pour notre probl�me de classification multi-�tiquettes dans un probl�me de s�quence d'�tiquette d'image pr�dite, l'objectif est de trouver une pr�diction, vous pouvez obtenir la r�compense et la plus grande, elle correspond � son taux de pr�cision est le plus �lev�.

Les m�thodes ci-dessus ont �t� l'introduction, nous allons introduire pour r�soudre plusieurs �tiquettes classement renforcer l'image de l'algorithme Q-apprentissage en profondeur.

Renforcer l'apprentissage strat�gie optimale est juste pour expliquer la strat�gie de r�mun�ration cumulative et maximum. Dans la t�che de classification d'images multi-�tiquettes, la r�compense maximale cumul�e et la pr�cision maximale pr�vue correspondante. Nous utilisons Q-learning pour r�soudre le probl�me profond de trouver la strat�gie optimale, Q-apprentissage en profondeur l'utilisation des r�seaux de neurones pour pr�dire le mouvement de chaque �tat correspondant � la valeur de Q, l'utilisation de d�j� form� comme un extracteur de fonction CNN dans la formation lorsque cela ne fait plus partie de la formation, que cette partie de l'argument ne sera plus mis � jour, et que vous devez mettre � jour les param�tres du r�seau Q, qui permettrait une convergence plus rapide de l'algorithme, et plus stable.

La figure est une vue sch�matique d'une structure de r�seau de Q-apprentissage en profondeur:

Donne une image, l'entr�e a �t� form� dans ce r�seau CNN VGG, vous obtenez une fonction

Et l'image caract�ristique et de l'histoire agir ensemble en tant qu'Etat, ce qui est un r�seau d'entr�e de sortie profonde Q, Q r�seau profond est un r�seau correspondant � chacun la valeur de Q, lorsque cette personne, chat, v�lo ... canap� il poss�dera une valeur Q correspondant, et chaque fois que le choix, nous allons s�lectionner la valeur d'action Q maximum que l'action optimale pour la mise � jour it�rer.

fonction de perte Q r�seau form�, l'algorithme de Q-learning classique profond est �crit sous une forme (voir �quation ci-dessus la premi�re ligne), tout en s�lectionnant � chaque �tape de l'op�ration, tout s�lectionner une Q-valeur maximale correspondant � l'op�ration, mais ici nous selon cette question image multi-�tiquette, un changement dans un moment, n'est plus s�lectionner la valeur maximale de Q action correspondante, mais l'action juste � c�t� va �conomiser, il y a replay exp�rience, la mise � jour lorsque l'utilisation directe de cette partie (cercle rouge marqu� portion it�ratif) de la valeur Q du param�tre est sous forme d'un tel.

Ce qui suit est un Q-apprentissage de profondeur algorithme sp�cifique:

Dans un premier temps, nous initialiser une m�moire de lecture D, et l'ensemble de l'action ensemble A, nous avons mis en B comme un ensemble d'actions ont pr�dit, alors C est fourni un ensemble d'action avaient ensemble d'actions non pr�vues. Parce que dans un probl�me d'apprentissage par renforcement typique, pour chaque �pisode, l'agent � chaque �tape est de s�lectionner une action, un �pisode de l'action peuvent se chevaucher, mais la classification multi-�tiquette en termes d'image, chaque graphique ne reproduira pas �tiquette, afin d'apprendre � r�soudre le probl�me en renfor�ant la classification multi-�tiquettes d'images, chacune des figures, chaque instant n'est plus choisir ces options ont pr�dit l'�tiquette, ce qui est la raison pour laquelle vous voulez d�finir ont pr�dit ensemble d'actions et non B pr�dire les actions r�gl�es C, et � partir de t = 1, T le temps, � chaque instant sont d'abord calculer C, C ne sont pas pr�vus le jeu d'�tiquettes d'actions, C = a \ B, � savoir de B � a dans l'�l�ment enlev�, puis suivi avide, s�lectionnez une action de C, pour effectuer cette op�ration, et obtiendra une r�compense r, tandis que l'�tat suivant, de sorte qu'une interaction est termin�e, le tout ex�cut� a �t� mis en service pr�voir l'ensemble B actions, puis recalculer C = a \ B, puis suivre la strat�gie avide, la s�lection d'un �tat de fonctionnement suivant � + 1, puis St , A, temp�rature ambiante, pendant St + 1 � + 1 D ensemble dans un environnement interactif et est termin�e (comme indiqu� ci-dessus).

La figure (rouge de partie inf�rieure) est le processus de formation, la formation, on a choisi au hasard � partir de D, d'un mini lot de sortie, puis en utilisant le sch�ma de formule (partie de la ligne inf�rieure rouge) pour calculer la valeur du r�seau Q cible, puis la mise � jour du gradient param�tres Q et les param�tres r�seau de la cible r�seau Q, M temps d'ex�cution, et enfin obtenir une action optimale et la strat�gie optimale par le processus de cette s�rie d'algorithmes, qui est l'algorithme de Q-apprentissage en profondeur pour l'image de classification multi-�tiquettes processus.

Voici quelques d�tails sur la mise en uvre:

Nous utilisons l'ensemble de donn�es est VOC2007 et PASCAL PASCAL VOC2012, nous avons mis la couche profonde du r�seau Q 512 est un premier noeud, une deuxi�me couche de 128 noeuds. �tant donn� que les donn�es de jeu d'�tiquettes 20, la derni�re couche est de 20 noeuds. Tag 20 ensembles de donn�es, chaque op�ration peut utiliser un vecteur de dimension 19 est repr�sent�, chaque historique d'actions h de deux actions pr�c�dentes sont cod�es, donc un total de 38 h. Nous formons ce r�seau de trois �poque, toutes les �poques ont dit l'ensemble des donn�es lorsque l'image est marqu�e comme termin�e, le temps de formation, suivi avide cette strat�gie, les deux premi�re �poque de 0 � 1,2, et la derni�re �poque fix� � 0,1.

Parlez-nous des r�sultats de l'exp�rience:

Tout d'abord, l'exp�rience et VOC2007 PASCAL PASCAL VOC2012, PASCAL VOC2007 un total de carte 9963, qui est un �chantillon trainval 5011 et 4952 est l'�chantillon d'essai. Le nombre de donn�es d'image fixe PASCAL VOC2012 au sujet VOC2007 deux fois est 22531 figure, qui a trainval figure 11540, 10991 il Test de la figure, chaque ensemble de donn�es dont seulement 20 balise.

Mesurer, nous utilisons percision moyenne et moyenne de averge percison � mesurer.

Tout d'abord, nous avons con�u des exp�riences pour explorer l'apprentissage de l'�tiquette ne correspond pas au cours de m�canisme d'�tude, notre algorithme standard appel� le CRIM, puis nous avons con�u un algorithme fixe CRIM, CRIM fixe est une variante de l'algorithme CRIM, qui est con�u de telle sorte que:

En supposant que le nombre d'�tiquettes semblent plus ax�s sur la formation d'un plus petit nombre par rapport � l'�tiquette cibl�e La formation semble pr�dire quand le nombre devrait �tre plus proche de la partie sup�rieure, donc on calcule le nombre de fois chaque balise qui appara�t, puis le nombre d'�tiquettes de plus � suivre moins con�u un ordre fixe, qui est con�u pour l'ordre fixe notre CRIM, mais la norme est par rapport au CRIM, r�compense fixe CRIM est pourvu d'un certain nombre de diff�rents, donner un exemple, si nous d�finissons cet ordre est une bonne personne et le chien, nous pr�disons l'ordre est le chien et la personne, puis la r�compense fixe CRIM est 1 et -1, CRIM obtenir la r�compense est +1 et + 1, fixe CRIM est lorsque vous pr�disez la s�quence et lorsque l'ordre d�fini exactement la m�me chose, ce sera la seule r�compense +1. Nous devons apprendre � juger de l'ordre de tabulation en comparant les deux approches ne sont pas bas�es sur la fr�quence d'apparition de l'ordre de l'�tiquette de plus � moins.

Ensuite, nous utilisons les indicateurs suivants pour mesurer:

Le premier indicateur, moyenne de la classe et la moyenne de la pr�cision de l'�chantillon, � savoir, au niveau de la classe exemple au niveau de la pr�cision, et
Le deuxi�me indicateur, et l'indicateur est le taux de rappel moyenne moyenne par �chantillonnage, � savoir la valeur de niveau classe de rappel et l'exemple de niveau
Le troisi�me indicateur, et la moyenne de l'�chantillon de la valeur d'index de base moyenne, � savoir la valeur de F et du niveau de la classe exemple au niveau de

Voici les r�sultats de cette exp�rience:

Que la classe moyenne (C-P), ou la moyenne d'�chantillon (E-P), la performance bien meilleure que CRIM CRIM-fixe, de sorte que la s�quence d'apprentissage CRIM m�thode standard d�fini sur une s�quence simple.

La relation entre l'ordre et l'ordre pr�vu pour introduire des �tiquettes apparaissent, le dessin de fantaisie, la colonne pourpre repr�sente la r�partition de l'ensemble de test est le nombre d'occurrences de l'�tiquette, colonne bleue repr�sente la premi�re �tiquette de distribution pr�dite de l'�tape, la colonne vert la deuxi�me �tape repr�sente l'�tiquette de la distribution pr�dite, une troisi�me �tape de distribution des �tiquettes jaunes pr�dites.

Vous trouverez en regardant sur l'ensemble de test et la premi�re �tape dans la distribution de l'�tiquette pr�vue de la distribution r�elle est une distribution sensiblement uniforme de la distribution bleu et violet, plus sera le nombre d'�tiquettes apparaissent plus t�t pr�dit. Dans le vert et le jaune de la distribution, vous pouvez trouver cette tendance � devenir moins �vidente, est l'agent a �t� pr�dit � l'aide d'une simple �tiquette, peut �tre plus difficile de pr�voir quelques-unes des �tiquettes, par exemple personne, voiture et chien ils sont une partie de l'�tiquette plus simple, il sera souvent pr�dit dans la premi�re �tape, puis, comme le dos de la bouteille, chaise et plante ces �tiquettes, ils sont quelques-uns des plus difficiles de l'�tiquette, le plus souvent dans la premi�re �tape est tr�s difficile a �t� pr�vu, on pr�voit que dans les deuxi�me et troisi�me �tapes, la premi�re �tape qui est simple � pr�dire l'�tiquette pour aider � pr�dire l'effet sur la difficult� de l'�tiquette arri�re.

De plus, nous avons pr�vu �galement la relation entre l'objet et la taille de l'ordre, carte de fantaisie, le bleu est la premi�re �tape de distribution pr�vue de la taille de l'objet, le vert est la deuxi�me distribution de la taille de l'objet pr�vu �tape, et le jaune est la troisi�me �tape distribution de pr�diction de la taille de l'objet. Vous pouvez voir des objets relativement importants, alors que la premi�re �tape serait pr�dit pr�dit, donner un exemple, cette personne sera relativement importante et une chaise, normalement pr�vue dans la premi�re �tape, l'usine et la bouteille est relativement faible, le plus souvent dans la seconde �tape pr�dite. Cette premi�re �tape est la personne pr�vue, avec l'aide de personne, plante habituellement pr�dit facilement et une bouteille dans le deuxi�me et troisi�me. Apr�s cette figure et la figure devant peuvent �tre tir�es, agent d'apprentissage par renforcement est capable, conform�ment � la pr�vision du simple � l'ordre complexe pour le contenu de chaque figure.

Les algorithmes de test et d'algorithmes enti�rement supervis� sont compar�s:

Notre algorithme dans la formation de la r�compense, il n'y a pas de r�compense au moment des tests, nous saisissons directement avec la valeur de Q � comparer, au-dessus de ces algorithmes sont tous algorithme supervis� en tant que fraction de confiance, cette ligne est notre derni�re algorithme. Vous pouvez voir, notre algorithme et l'algorithme est assez large surveillance, encore mieux que la supervision compl�te de l'algorithme, les r�sultats sur la carte de VOC2007, la liste suivante est le r�sultat de la montagne VOC2012, les avantages de notre algorithme sera plus �vident dans certains, le r�sultat montre que notre algorithme par rapport � l'algorithme est assez large surveillance, ou est-il un avantage.

Nous avons �galement analys� pour pr�dire les r�sultats de cet algorithme dans une �poque diff�rente CRIM, o� la liste un total de trois �poque (verticale), ces chiffres se trouvent de la premi�re �poque � la troisi�me, a pr�dit une �tiquette de plus en plus plus �vidente, en particulier lorsque le nombre relativement important d'�tiquettes, lorsque la tendance sera plus apparente. Ensuite, nous analysons les diff�rentes figures, un par un, en commen�ant score cheval est pas tr�s �lev�, que la personne est pr�dit, les scores de personne plus haut, les scores de chevaux seront pr�vus.

Observation d'un graphe (vertical) se trouve, personne est relativement facile de pr�dire, avec une occlusion partielle de cheval et plus difficile � pr�voir, une �tiquette indiquant une pr�diction simple peut aider � pr�dire l'�tiquette difficile.
La deuxi�me parcelle, voiture plus importante, est essentiellement bloqu� ou n'est pas tr�s clair, on peut voir quand les scores de voiture plus en plus haut, les scores de personne plus haut, cela signifie, il y a des pr�dictions de voiture aider � pr�dire la personne.
Quatri�me figure, que le d�but, la bouteille et la table de score est pas tr�s �lev�, mais le score est plus �lev� que d'autres �tiquettes, ainsi que les ann�es de personne obtiennent de meilleurs r�sultats et plus (et plus �vident), puis une bouteille de la personne et la table de score est �galement plus en plus �lev�, ce qui indique que la personne � pr�dire et aider � pr�dire bouteille de table.
chiffres cinqui�me, nous pouvons voir que les pr�visions de chaise directement contribu� � la table de pr�diction et un canap�.

conclusion

Ce document propose de renforcer l'algorithme de classification d'images multi-�tiquettes, cet algorithme simule le m�canisme des cours d'apprentissage humain, des plus simples aux pr�visions de l'�tiquette complexe.
Dans cet algorithme, un renforcement de l'agent d'apprentissage, l'utilisation d'images et caract�ristiques pr�c�demment pr�dit l'�tiquette comme un �tat, puis laisser la balise comme l'action, regard pour faire un taux de pr�cision de pr�diction pour obtenir la meilleure strat�gie.
Nous d�montrons l'efficacit� de nos exp�riences sur VOC2007 et VOC2012.

r�f�rences:

Ce sont les clients actuels partagent tous. Plus ouvert go vid�o de classe au coll�ge AI Mu classe � regarder. Mise au point sur le num�ro public micro-canal: AI Technology Review, la derni�re fois classe ouverte disponible en direct pr�avis.

Route de la soie

Apprenez � conna�tre la Chine

R�sum� | Union Fr�re Institut Sydney AI Ho Shi Yue: le renforcement des cours bas�s algorithme de classification d'images multi-�tiquettes