Résumé | Union Frère Institut Sydney AI Ho Shi Yue: le renforcement des cours basés algorithme de classification d'images multi-étiquettes

AI Technology Review par: Par rapport à la classification d'une seule image étiquette, la classification d'images est une méthode multi-étiquette est plus conforme aux lois objectives du monde réel, en particulier dans l'annotation sémantique des images et des vidéos, a été largement utilisé la recherche d'images sur le terrain et ainsi de suite.

Lei canal universitaire de réseau Feng projet de base de données AI Technology Review "facteur d'impact AI", l'Union Frère Institut Sydney AI avec quatre documents acceptés de CVPR, 820 millions $ de la série C ronde de financement, scientifique en chef AI Tao, grand élu Australian Academy of Sciences performance impressionnante est venu « facteur d'impact AI » à l'avant-garde.

Récemment, à GAIR Auditorium, l'Université de Pékin, maîtrise en vision par ordinateur Ho Shi Yue, a partagé son expérience avec l'apprentissage de la méthode et de renforcement pour résoudre le problème de la classification des images multi-étiquettes. Ouvrir l'adresse de lecture vidéo de classe: http: //www.mooc.ai/open/course/499

Ho Shi Yue, l'Université de Pékin Master of Computer Vision, Union des étudiants de l'Institut frère AI Sydney, les grandes orientations de recherche pour l'apprentissage de renforcement, l'apprentissage en profondeur.

sujet Partager

Renforcer les cours algorithme de classification d'images multi-label

grandes lignes de l'action

  • Basé sur le mécanisme du cours d'étude, nous proposons une méthode pour renforcer la classification multi-étiquettes pour simuler le processus de difficile à prédire humain d'être facile à étiqueter.

  • Cette approche permet une étude de l'étiquette de l'agent de renforcement prédite en fonction des caractéristiques de l'image et les étiquettes prévus de manière séquentielle. De plus, il est un prix tout en cherchant un moyen d'obtenir la stratégie optimale maximale, de sorte que la plus grande précision de la classification d'image du multi-étiquette.

  • Dans une tâche réelle multi-onglet, renforcer la nécessité et l'efficacité de cette méthode de classification d'images multi-étiquettes.

Ce qui suit est la part de la consolidation de la technologie AI examen:

Union Frère a été créé en 2012, est un leader mondial dans l'intelligence artificielle et de la société robotique humanoïde, nous avons lancé un robot humanoïde de consommateurs série Alpha, la programmation éducation STEM robot intelligent Jimu, robots de services intelligents Cruzr plate-forme de nuage commercial et d'autres marchandises, et se sont installés avec succès dans le monde Apple Store.

En outre, l'Union Frère aussi avec l'Université de Tsinghua a mis en place un laboratoire commun de robots de services intelligents, mis en place avec l'Université de Sydney Institut de l'intelligence artificielle, Université Huazhong des Sciences et mis en place un robot de laboratoire commun, servocommandes dans l'algorithme de contrôle de la marche du robot humanoïde , vision artificielle, de la parole / compréhension sémantique, reconnaissance des émotions, U-SLAM (localisation et cartographie simultanées) disposition des champs de profondeur et analogues. 2018, Union Frère a complété une ronde C de l'évaluation financement de 5,0 milliards $.

Avant d'expliquer, je tiens à remercier mes collègues, ils étudient et travaillent me ont donné beaucoup d'aide, en commençant par le Dr Guo Tianyu, le Dr Xu Chang, professeur Xu Chao, professeur Cheng Tao grand.

Le contenu principal a commencé à présenter aujourd'hui à partager, d'abord introduit la classification d'images multi-étiquettes (classification d'images multi-étiquettes), la classification d'images multi-étiquette, par définition, fait référence à une image a plusieurs étiquettes.

classification d'image unique d'étiquettes classiques signifie qu'une vue ne dispose que d'une étiquette, tel que le jeu de données de reconnaissance de chiffres manuscrits Mnist: un nombre de 0 à 9 d'une seule étiquette, une carte; ImagineNet, 1000 a un ensemble d'étiquettes de données, chaque la figure correspond seulement à une balise. Mais dans la vraie vie, une image est souvent appartiennent à plusieurs étiquettes, comme une image avec des tables, est susceptible d'avoir des bouteilles, des tables et des étiquettes de bouteilles sont cette image, la légende suivante est donnée de nombreuses étiquettes :

La figure (A), une étiquette: tigre, neige, tigres de Sibérie; (b) de l'étiquette:. Tigre, neige, arbres, tigres de Sibérie

Ces deux illustrations sont l'image multi-étiquettes, une pluralité d'objets de dessin, constitué d'une pluralité d'étiquettes d'objet à étiqueter l'image entière, ces dernières années, ces méthodes de classification multi-étiquettes ont une variété d'applications, annotation sémantique tels que l'image, l'annotation sémantique vidéo, ainsi que la recherche d'images par le contenu et similaires.

Par rapport à la classification d'une seule image étiquette, la classification d'images multi-étiquettes a quelques difficultés:

  • Une difficulté, il existe une relation symbiotique entre une variété d'étiquettes, telles que le ciel et les nuages, il y a une image dans le ciel, de gros nuages peuvent aussi avoir

  • Difficultés En second lieu, la relation entre les dimensions de cette balise est élevée, le modèle difficile à mesurer

  • Difficultés Troisièmement, de nombreuses balises sémantiques se chevauchent, comme chat et chaton tout se référant au chat, de sorte que les deux étiquettes se chevauchent sémantiquement

  • Ces dernières années, l'image de la classification multi-étiquette a une grande variété de recherches, d'introduire les travaux connexes suivants.

Une image de classification multi-étiquette d'une pratique courante consiste à émettre plusieurs onglets en un seul problème d'étiquette, le plus représentatif est de Binary méthode Pertinence, qui est, nous le disons souvent que la méthode BR, en supposant qu'il y a trois étiquettes, puis ici il 3 classificateurs, chacune correspond classificateur classificateur à deux entrées X, après trois classificateurs, respectivement Y1, Y2 et Y3, leurs valeurs sont 0 ou 1, si la valeur est 0, cela signifie que l'étiquette ne fait pas partie de l'image, si elle est de 1, cela signifie que l'image appartient à l'étiquette.

A propos de la sélection de classificateur BR est varié, il a été l'utilisation de CNN, utilisait également un arbre de décision. Ces dernières années, nous utilisons CNN comme une classification de base, puis de former avec la perte du classement et la perte d'entropie croisée, mais ces méthodes ont un problème commun, ils ignorent la corrélation entre les étiquettes. Mais dans les problèmes de classification des images multi-étiquettes, la corrélation entre l'étiquette répandue.

Comment mesurer la corrélation entre l'étiquette?

Une méthode simple consiste à utiliser la balise pour déduire la prédits sur l'étiquette en cours, à savoir, une méthode dans l'ordre prévu, l'ordre de la méthode de prédiction est un exemple typique d'une chaîne de classificateurs méthode, le droit est une chaîne de classificateurs de schéma, qui est plus que Binary procédé Pertinence de plus de quelques lignes, qui est, à partir de la ligne Y2 à Y1, Y2 à Y3 de la ligne, ainsi que de Y1 à Y3, le début, l'entrée X dans le classificateur, et d'obtenir Y1, Y1 et X comme entrée, par l'intermédiaire d'un classificateur obtenu Y2, X, Y1, Y2 et ensuite utilisé comme entrée, par l'intermédiaire d'un classificateur pour obtenir Y3, qui est, l'étiquette prévue derrière la face avant ont étiquette dépendante prédit, le procédé de la chaîne de classificateur besoin d'un ordre fixe, et cet ordre est à l'avance décidé, classificateur méthode de la chaîne est très sensible à l'ordre, afin de réduire l'impact de l'ordre, chaîne de classificateurs ont une variété de variantes, comme ECC (Ensemble Cassifier Chain), est d'utiliser des moyens d'ensemble pour améliorer la performance classificateur chaîne, en plus, il y a un C Procédé NN-RNN.

méthode CNN-RNN pour extraire l'information sémantique de l'image avec CNN, puis à la relation RNN entre l'image et le modèle d'étiquette, mais cette méthode nécessite également une bonne séquence donnée à l'avance.

De plus, il existe certains modèles de la figure, comme indiqué ci-dessous.

La figure (à gauche) est le mécanisme symbiotique entre l'étiquette; (à droite) du mécanisme symbiotique entre l'étiquette transformé en un modèle de graphe, afin de résoudre les problèmes par carte de solution modèle de classification de l'image multi-étiquette, mais ce paramètre de procédé plus, pour résoudre plus complexe.

Les méthodes existantes ne sont pas une image prédisaient l'étiquette est prévue de manière séquentielle, mais nécessitent l'avance bon ordre, et l'ensemble des données sont généralement donnés une séquence, qui est humaine, les méthodes d'apprentissage des animaux contraire. Un genre d'humains et les animaux suivent généralement du simple au complexe type d'ordre, qui est, nous disons souvent difficile facile d'abord. En biologie, ce genre de mécanisme est appelé mécanisme de cours, ICML 2009 mécanisme proposé de ce cours d'étude, et peut être vérifiée en changeant l'ordre d'apprentissage (connaissance organisation simple), d'améliorer l'efficacité de l'apprentissage de la machine .

Ce qui précède est un exemple simple, la figure (rangée du haut) sont quelques-uns des chiens plus facilement reconnaissable photos, plan (rangée du bas) sont plus difficiles à identifier l'image du chien.

Utiliser programme d'apprentissage pour résoudre le problème de l'apprentissage en profondeur, relativement facile à étudier ces échantillons (en haut), vont apprendre ces échantillons relativement durs ci-dessous, et donc d'améliorer les performances et plus propice à son algorithme converge ici nous allons étendre le mécanisme de ce cours est de publier le classement multi-étiquettes d'images.

Figure (à gauche), le bateau est très visible, de sorte que cette image est un bateau relativement facile appartenant à l'étiquette, mais la personne sur le bateau a été partiellement bloqué, alors personne est plus difficile de prédire l'étiquette. séquence humaine image prédite est alors prévu pour prédire personne bateau qui suit le cours du mécanisme des personnes du simple au complexe. (À droite), on voit d'abord est plus important « chat », donc « chat » est relativement facile dans l'étiquette, voir une occlusion partielle du « canapé » derrière, de sorte que le « canapé » est étiquette relativement complexe, il suit aussi le cours de l'étude du mécanisme de facile à des personnes difficiles.

En fait, pour l'homme et les animaux, la même séquence d'étirage ne soit pas un objet fixe, leur ordre selon la taille de l'objet dans l'image, certains des liens entre la sémantique de ces facteurs, l'ensemble des données à une séquence prédéterminée ne répond pas aux mécanisme de cours de personnes, par conséquent, nous proposons une méthode basée sur le renforcement de cours de plusieurs étiquettes d'étude, de sorte que l'apprentissage par renforcement des agents basés sur la relation entre le contenu et l'image de l'étiquette, à savoir l'ordre de la façon de prédire et de prévision.

En second lieu, le vrai système d'annotation d'images, généralement à l'utilisateur de télécharger une photo, le système recommandera plusieurs balises pour vos utilisateurs, il vous donnera des commentaires, compte tenu de la face de l'étiquette, l'utilisateur sera donné des commentaires. Ces commentaires rarement été étudiés, les informations contenues dans cet article, nous allons commentaires sont intégrés dans le processus d'apprentissage multi-étiquettes.

Nous avons mentionné ci-dessus sont l'apprentissage de renforcement utilisé pour l'apprentissage des problèmes de classification multi-étiquette, ici nous arrivons à un apprentissage bref de renforcement.

Apprentissage par renforcement est une branche importante de l'apprentissage de la machine, et de renforcer l'apprentissage et diffère d'autres types d'apprentissage de la machine est que tout d'abord il n'y a pas d'apprentissage de renforcement de signal d'enseignant, tel qu'il n'a pas d'étiquette, juste récompense. Renforcement délai de retour d'apprentissage, ne peut pas être une rétroaction immédiate. Le renforcement de l'équivalent série de données d'entrée d'apprentissage, ce qui est d'un état à un autre. données améliorées après l'opération d'apprentissage entre l'agent aura une incidence.

La figure (à gauche) est un apprentissage de renforcement de l'agent, (à droite) est l'environnement. Le renforcement de l'agent d'apprentissage par essais et l'apprentissage d'erreur grâce à l'interaction continue avec l'environnement, pour atteindre l'objectif de la stratégie optimale.

Apprentissage par renforcement a trois éléments, le premier élément est l'état de l'Etat, le deuxième élément est l'action d'action, le troisième élément est la récompense. Lorsque le temps t, l'état de l'agent est St, par l'observation de l'environnement, de prendre des mesures à, la température ambiante tandis que l'environnement de réaction, dans l'état suivant St + 1, répéter le processus jusqu'à ce que la fin de l'interaction. Ceci est un processus fondamental de l'amélioration de l'apprentissage.

En outre, il existe de nombreuses applications pour renforcer l'apprentissage, comme dans la plupart du jeu Atari, marquant agent de renforcement pour en savoir plus qu'humain, AlphaGo (apprentissage de renforcement et est le Monte Carlo Arbre Recherche (UCT) ensemble ), le renforcement de l'agent à l'étude peut gagner le championnat du monde, dans le champ de texte, vous pouvez utiliser l'algorithme d'apprentissage de renforcement pour générer du texte basé sur l'image, dans le champ d'image, diagramme (en bas à droite) est un exemple de l'utilisation de la détection cible améliorée de l'apprentissage à faire.

Voici quelques images de l'apprentissage amélioré la classification multi-étiquettes.

Tout d'abord, nous allons expliquer brièvement qui utilisent des symboles, X (majuscule) est la langue d'entrée, Y (majuscule) est un ensemble d'étiquettes, s'il y a étiquette m, puis l'étiquette de c'est compris entre 1 et m. x (minuscule) est un exemple de l'entrée, où l'on se réfère généralement à une image, y (minuscule) appartenant à baliser cet exemple, s'il y a des exemples de tags K, puis y = {y1, yk}, yi correspondant à la i-ième étiquette appartient à x.

Nous renforcerons cette méthode d'apprentissage et de le comparer commun sous la direction des méthodes d'apprentissage dans la méthode d'apprentissage traditionnel supervisé, dans la formation de, x, y est connu, qui est, l'entrée et la sortie X Y lorsque l'on connaît la formation, notre étude est une application de X à Y, mais pas dans les problèmes d'apprentissage par renforcement étiquette, Y qui est inconnu, que les commentaires que nous obtenons est p, dans un moment, l'entrée est x, des mesures sont prises zi, get une rétroaction zi: pi. En général, pi appartient à {-1, + 1} ces deux valeurs, ce qui reflète la qualité de l'étiquette des étiquettes recommandées, -1 valeur recommandée obtenu un bon retour, ce retour recommandé + 1 signifie une bonne étiquette obtenue a.

Dans cette opération, nous avons modélisé ce processus de création d'une séquence d'images dans un processus de Markov de processus de Markov comporte cinq éléments, S, A, R, T, .

  • S: espace d'état (espace d'état)

  • A: un ensemble d'actions, l'ensemble d'action est généralement limitée

  • R: obtenu après l'état d'exécution S, pour effectuer des actions Une série de R sera de l'espace, l'espace désigné par R, R sont généralement {-1, + 1}, d'effectuer une mesure qui reflète la qualité du retour d'information A

  • T: A pour obtenir l'exécution d'un état suivant dans l'état S, l'état est la transition entre la

  • : appartenant à

  • : ici fait référence à la stratégie que nous voulons trouver est une application de S à A

Tout d'abord nous introduisons le premier long-métrage, A, qui est action.

Un agent qui est une opération pour sélectionner une étiquette pour un dessin, dans lequel problème de classification de l'image multi-étiquette, selon le fonctionnement de l'ensemble A et l'ensemble de l'étiquette, si un jeu de données d'étiquettes de m, il a l'action de m, (à gauche) correspond à un ensemble d'étiquettes de cet ensemble de données, il a une personne, chat, vélo et canapé balises et il correspond à l'action définie a, respectivement, ce qui correspond à la personne par exemple 1, chat correspondant à 2, onze la correspondance.

État S, État

L'état S est réglée à une représentation binaire, le premier élément est un élément de tuple f (caractéristique) de l'image, le deuxième élément est l'histoire des mesures h, de sorte que S = (f, h), chaque état tous appartiennent à l'ensemble de l'espace d'état.

tout, premier long métrage de f est entièrement connecté à partir d'une couche de VGG16, vecteur 4096 dimensions extrait, VGG16 a été bonne dans la formation IMAGEnet ci-dessus, mais aussi besoin d'être de retour dans la formation sur des ensembles de données multi-étiquettes, c'est parce que IMAGEnet et multi ensemble de données d'étiquette de l'étiquette peut ne pas être exactement la même, par rapport à une seule étiquette IMAGEnet cette série de données en termes de relations sémantiques et spatiales ensembles de données multi-étiquettes seront plus complexes, donc retour à la formation sur des ensembles de données muti-étiquette très nécessaire.

Le deuxième élément h tuple, h est un vecteur réel, représentant de l'étiquette précédemment prédit, à savoir l'épisode De là, l'heure actuelle jusqu'à ce que toutes les étiquettes que l'on appelle prédit l'histoire de l'action, chacun correspond à une action un nombre M, donc nous avons codé dans chacun d'un vecteur de mouvement, cette action que si le fonctionnement du M, puis chaque action est codée dans un vecteur de bits M-1, est le (inférieur) de formule , e représente chaque opération de codage.

Figure sur un exemple spécifique, le temps initial, ce chiffre ne prédit pas une étiquette sur la page d'étiquettes est vide, puis nous procédons à sa première action est de prédire son étiquette est une personne, a trouvé dans ce tableau à l'intérieur de la personne de l'étiquette, puis l'ajouter à l'histoire de l'action à l'intérieur. Dans le temps où t = 3, voiture de l'étiquette prévue, puis la voiture ajoutée à l'intérieur de l'histoire de l'action, à l'instant t = 4, prédit l'arbre de l'étiquette, de sorte que l'arbre puis ajouté à l'histoire de l'action à l'intérieur, afin que nous puissions voir à, de l'état initial jusqu'à la fin de cet épisode, il est l'histoire d'action est vide du début à remplir essentiellement certaines des étiquettes, regardez le tableau (à gauche), nous venons de dire, chaque action est modélisé en tant que M -1 vecteur de position, si nous prenons n actions que l'histoire d'action, puis dimension h est n * (M-1).

Puis Transitions T, dans notre processus de MDP (processus de décision de Markov), T est fixe, c'est-à-dire pour un état et d'action, le nouvel état, il peut atteindre est fixé, c'est-à-dire s mesures prises dans un un état, ne peut atteindre la valeur suivante état sp, à savoir, l'image ci-dessus à la formule: T (s, a) = T ((f, h) a) = (f, h « ). Pour un épisode cette fonctionnalité car elle, image caractéristique est inchangée, VGG16 sont entièrement connecté, le changement est que l'histoire de l'action.

fantaisie figure (partie inférieure), l'image est entrée dans la propriété extraite VGG164.096 dimension couches entièrement connectées, la composition de cette fonction f. Ici, nous supposons avoir prédit une personne de l'étiquette, il en est ainsi son histoire d'action, qui constituent ensemble l'état de l'art. Dans l'heure actuelle, nous prévoyons une voiture =, obtenir l'état suivant, changement d'état est d'ajouter le même dans l'histoire de l'action, ajoutez cette voiture à la liste historique des actions pour obtenir un état d, pour chaque après que l'État concerné, il a fallu chaque opération de fixation, il obtient le prochain état de est unique.

Dans un scénario réel, ce sont des commentaires discrets (récompense est discret), mais ici afin de simplifier le problème, nous récompenserons fixés pour un moment: Si c'est le retour est bon, il sera mis à 1 récompense si ce n'est pas bon feedback, ce sera la récompense est fixé à -1, la façon d'évaluer le bien et le mal?

Dans ce problème, si elle est l'étiquette choisie est juste, alors nous pensons qu'il est bon, si elle ne pas appartenir à l'image de l'étiquette sélectionnée, il est considéré comme mauvais. (En bas) est un exemple spécifique, dans le même état, il faut choisir l'opération, si elle est une voiture ou action sélectionnée Arbre, cela signifie que deux étiquettes appartiennent à l'image, qu'il a pris, à r = + 1 sera l'étiquette. S'il est un chien ou un tag sélectionné bus, il montre les deux balises ne sont pas de cette image, que mal, get r = -1.

Ceci est un exemple d'une séquence prédite, le montre l'exemple plus clairement comment configurer r, au début de l'image à cheval sont deux étiquettes et par personne, si je donne cette image une étiquette « chien », ce « chien » est pas appartiennent à cette image, il obtiendra une récompense = -1. Si l'étiquette d'un cheval ou d'une personne, ces deux étiquettes appartiennent à cette image, ils recevront une récompense = + 1, bien sûr, d'autres en prévision étiquetés et la récompense qu'ils reçoivent de -1. Après avoir sélectionné le chien de l'étiquette, nous prédisons qu'il choisira l'étiquette suivante, si elle est de prédire l'étiquette suivante est le cheval, ce qui signifie qu'il a choisi le droit, donner une récompense = + 1. Si elle est sélectionnée personne à côté de l'étiquette, nous croyons aussi qu'il a choisi le droit. Bien sûr, si le cheval la prochaine mauvaise étiquette, lui donner un -1 si elle est l'élection de la prochaine étiquette, donner +1, de l'autre côté aussi.

On calcule alors la récompense globale de ces deux étapes et peut être considérée comme une récompense pour l'élection, une récompense si faux, et leur récompense globale est 0 que lorsque les deux étiquettes sont cueillies, comme le cheval, personne ou personne, cheval, il récompensera = + 2, les autres situations seront 0 ou -2. Pour notre problème de classification multi-étiquettes dans un problème de séquence d'étiquette d'image prédite, l'objectif est de trouver une prédiction, vous pouvez obtenir la récompense et la plus grande, elle correspond à son taux de précision est le plus élevé.

Les méthodes ci-dessus ont été l'introduction, nous allons introduire pour résoudre plusieurs étiquettes classement renforcer l'image de l'algorithme Q-apprentissage en profondeur.

Renforcer l'apprentissage stratégie optimale est juste pour expliquer la stratégie de rémunération cumulative et maximum. Dans la tâche de classification d'images multi-étiquettes, la récompense maximale cumulée et la précision maximale prévue correspondante. Nous utilisons Q-learning pour résoudre le problème profond de trouver la stratégie optimale, Q-apprentissage en profondeur l'utilisation des réseaux de neurones pour prédire le mouvement de chaque état correspondant à la valeur de Q, l'utilisation de déjà formé comme un extracteur de fonction CNN dans la formation lorsque cela ne fait plus partie de la formation, que cette partie de l'argument ne sera plus mis à jour, et que vous devez mettre à jour les paramètres du réseau Q, qui permettrait une convergence plus rapide de l'algorithme, et plus stable.

La figure est une vue schématique d'une structure de réseau de Q-apprentissage en profondeur:

Donne une image, l'entrée a été formé dans ce réseau CNN VGG, vous obtenez une fonction

Et l'image caractéristique et de l'histoire agir ensemble en tant qu'Etat, ce qui est un réseau d'entrée de sortie profonde Q, Q réseau profond est un réseau correspondant à chacun la valeur de Q, lorsque cette personne, chat, vélo ... canapé il possédera une valeur Q correspondant, et chaque fois que le choix, nous allons sélectionner la valeur d'action Q maximum que l'action optimale pour la mise à jour itérer.

fonction de perte Q réseau formé, l'algorithme de Q-learning classique profond est écrit sous une forme (voir équation ci-dessus la première ligne), tout en sélectionnant à chaque étape de l'opération, tout sélectionner une Q-valeur maximale correspondant à l'opération, mais ici nous selon cette question image multi-étiquette, un changement dans un moment, n'est plus sélectionner la valeur maximale de Q action correspondante, mais l'action juste à côté va économiser, il y a replay expérience, la mise à jour lorsque l'utilisation directe de cette partie (cercle rouge marqué portion itératif) de la valeur Q du paramètre est sous forme d'un tel.

Ce qui suit est un Q-apprentissage de profondeur algorithme spécifique:

Dans un premier temps, nous initialiser une mémoire de lecture D, et l'ensemble de l'action ensemble A, nous avons mis en B comme un ensemble d'actions ont prédit, alors C est fourni un ensemble d'action avaient ensemble d'actions non prévues. Parce que dans un problème d'apprentissage par renforcement typique, pour chaque épisode, l'agent à chaque étape est de sélectionner une action, un épisode de l'action peuvent se chevaucher, mais la classification multi-étiquette en termes d'image, chaque graphique ne reproduira pas étiquette, afin d'apprendre à résoudre le problème en renforçant la classification multi-étiquettes d'images, chacune des figures, chaque instant n'est plus choisir ces options ont prédit l'étiquette, ce qui est la raison pour laquelle vous voulez définir ont prédit ensemble d'actions et non B prédire les actions réglées C, et à partir de t = 1, T le temps, à chaque instant sont d'abord calculer C, C ne sont pas prévus le jeu d'étiquettes d'actions, C = a \ B, à savoir de B à a dans l'élément enlevé, puis suivi avide, sélectionnez une action de C, pour effectuer cette opération, et obtiendra une récompense r, tandis que l'état suivant, de sorte qu'une interaction est terminée, le tout exécuté a été mis en service prévoir l'ensemble B actions, puis recalculer C = a \ B, puis suivre la stratégie avide, la sélection d'un état de fonctionnement suivant à + 1, puis St , A, température ambiante, pendant St + 1 à + 1 D ensemble dans un environnement interactif et est terminée (comme indiqué ci-dessus).

La figure (rouge de partie inférieure) est le processus de formation, la formation, on a choisi au hasard à partir de D, d'un mini lot de sortie, puis en utilisant le schéma de formule (partie de la ligne inférieure rouge) pour calculer la valeur du réseau Q cible, puis la mise à jour du gradient paramètres Q et les paramètres réseau de la cible réseau Q, M temps d'exécution, et enfin obtenir une action optimale et la stratégie optimale par le processus de cette série d'algorithmes, qui est l'algorithme de Q-apprentissage en profondeur pour l'image de classification multi-étiquettes processus.

Voici quelques détails sur la mise en uvre:

Nous utilisons l'ensemble de données est VOC2007 et PASCAL PASCAL VOC2012, nous avons mis la couche profonde du réseau Q 512 est un premier noeud, une deuxième couche de 128 noeuds. Étant donné que les données de jeu d'étiquettes 20, la dernière couche est de 20 noeuds. Tag 20 ensembles de données, chaque opération peut utiliser un vecteur de dimension 19 est représenté, chaque historique d'actions h de deux actions précédentes sont codées, donc un total de 38 h. Nous formons ce réseau de trois époque, toutes les époques ont dit l'ensemble des données lorsque l'image est marquée comme terminée, le temps de formation, suivi avide cette stratégie, les deux première époque de 0 à 1,2, et la dernière époque fixé à 0,1.

Parlez-nous des résultats de l'expérience:

Tout d'abord, l'expérience et VOC2007 PASCAL PASCAL VOC2012, PASCAL VOC2007 un total de carte 9963, qui est un échantillon trainval 5011 et 4952 est l'échantillon d'essai. Le nombre de données d'image fixe PASCAL VOC2012 au sujet VOC2007 deux fois est 22531 figure, qui a trainval figure 11540, 10991 il Test de la figure, chaque ensemble de données dont seulement 20 balise.

Mesurer, nous utilisons percision moyenne et moyenne de averge percison à mesurer.

Tout d'abord, nous avons conçu des expériences pour explorer l'apprentissage de l'étiquette ne correspond pas au cours de mécanisme d'étude, notre algorithme standard appelé le CRIM, puis nous avons conçu un algorithme fixe CRIM, CRIM fixe est une variante de l'algorithme CRIM, qui est conçu de telle sorte que:

En supposant que le nombre d'étiquettes semblent plus axés sur la formation d'un plus petit nombre par rapport à l'étiquette ciblée La formation semble prédire quand le nombre devrait être plus proche de la partie supérieure, donc on calcule le nombre de fois chaque balise qui apparaît, puis le nombre d'étiquettes de plus à suivre moins conçu un ordre fixe, qui est conçu pour l'ordre fixe notre CRIM, mais la norme est par rapport au CRIM, récompense fixe CRIM est pourvu d'un certain nombre de différents, donner un exemple, si nous définissons cet ordre est une bonne personne et le chien, nous prédisons l'ordre est le chien et la personne, puis la récompense fixe CRIM est 1 et -1, CRIM obtenir la récompense est +1 et + 1, fixe CRIM est lorsque vous prédisez la séquence et lorsque l'ordre défini exactement la même chose, ce sera la seule récompense +1. Nous devons apprendre à juger de l'ordre de tabulation en comparant les deux approches ne sont pas basées sur la fréquence d'apparition de l'ordre de l'étiquette de plus à moins.

Ensuite, nous utilisons les indicateurs suivants pour mesurer:

  • Le premier indicateur, moyenne de la classe et la moyenne de la précision de l'échantillon, à savoir, au niveau de la classe exemple au niveau de la précision, et

  • Le deuxième indicateur, et l'indicateur est le taux de rappel moyenne moyenne par échantillonnage, à savoir la valeur de niveau classe de rappel et l'exemple de niveau

  • Le troisième indicateur, et la moyenne de l'échantillon de la valeur d'index de base moyenne, à savoir la valeur de F et du niveau de la classe exemple au niveau de

Voici les résultats de cette expérience:

Que la classe moyenne (C-P), ou la moyenne d'échantillon (E-P), la performance bien meilleure que CRIM CRIM-fixe, de sorte que la séquence d'apprentissage CRIM méthode standard défini sur une séquence simple.

La relation entre l'ordre et l'ordre prévu pour introduire des étiquettes apparaissent, le dessin de fantaisie, la colonne pourpre représente la répartition de l'ensemble de test est le nombre d'occurrences de l'étiquette, colonne bleue représente la première étiquette de distribution prédite de l'étape, la colonne vert la deuxième étape représente l'étiquette de la distribution prédite, une troisième étape de distribution des étiquettes jaunes prédites.

Vous trouverez en regardant sur l'ensemble de test et la première étape dans la distribution de l'étiquette prévue de la distribution réelle est une distribution sensiblement uniforme de la distribution bleu et violet, plus sera le nombre d'étiquettes apparaissent plus tôt prédit. Dans le vert et le jaune de la distribution, vous pouvez trouver cette tendance à devenir moins évidente, est l'agent a été prédit à l'aide d'une simple étiquette, peut être plus difficile de prévoir quelques-unes des étiquettes, par exemple personne, voiture et chien ils sont une partie de l'étiquette plus simple, il sera souvent prédit dans la première étape, puis, comme le dos de la bouteille, chaise et plante ces étiquettes, ils sont quelques-uns des plus difficiles de l'étiquette, le plus souvent dans la première étape est très difficile a été prévu, on prévoit que dans les deuxième et troisième étapes, la première étape qui est simple à prédire l'étiquette pour aider à prédire l'effet sur la difficulté de l'étiquette arrière.

De plus, nous avons prévu également la relation entre l'objet et la taille de l'ordre, carte de fantaisie, le bleu est la première étape de distribution prévue de la taille de l'objet, le vert est la deuxième distribution de la taille de l'objet prévu étape, et le jaune est la troisième étape distribution de prédiction de la taille de l'objet. Vous pouvez voir des objets relativement importants, alors que la première étape serait prédit prédit, donner un exemple, cette personne sera relativement importante et une chaise, normalement prévue dans la première étape, l'usine et la bouteille est relativement faible, le plus souvent dans la seconde étape prédite. Cette première étape est la personne prévue, avec l'aide de personne, plante habituellement prédit facilement et une bouteille dans le deuxième et troisième. Après cette figure et la figure devant peuvent être tirées, agent d'apprentissage par renforcement est capable, conformément à la prévision du simple à l'ordre complexe pour le contenu de chaque figure.

Les algorithmes de test et d'algorithmes entièrement supervisé sont comparés:

Notre algorithme dans la formation de la récompense, il n'y a pas de récompense au moment des tests, nous saisissons directement avec la valeur de Q à comparer, au-dessus de ces algorithmes sont tous algorithme supervisé en tant que fraction de confiance, cette ligne est notre dernière algorithme. Vous pouvez voir, notre algorithme et l'algorithme est assez large surveillance, encore mieux que la supervision complète de l'algorithme, les résultats sur la carte de VOC2007, la liste suivante est le résultat de la montagne VOC2012, les avantages de notre algorithme sera plus évident dans certains, le résultat montre que notre algorithme par rapport à l'algorithme est assez large surveillance, ou est-il un avantage.

Nous avons également analysé pour prédire les résultats de cet algorithme dans une époque différente CRIM, où la liste un total de trois époque (verticale), ces chiffres se trouvent de la première époque à la troisième, a prédit une étiquette de plus en plus plus évidente, en particulier lorsque le nombre relativement important d'étiquettes, lorsque la tendance sera plus apparente. Ensuite, nous analysons les différentes figures, un par un, en commençant score cheval est pas très élevé, que la personne est prédit, les scores de personne plus haut, les scores de chevaux seront prévus.

  • Observation d'un graphe (vertical) se trouve, personne est relativement facile de prédire, avec une occlusion partielle de cheval et plus difficile à prévoir, une étiquette indiquant une prédiction simple peut aider à prédire l'étiquette difficile.

  • La deuxième parcelle, voiture plus importante, est essentiellement bloqué ou n'est pas très clair, on peut voir quand les scores de voiture plus en plus haut, les scores de personne plus haut, cela signifie, il y a des prédictions de voiture aider à prédire la personne.

  • Quatrième figure, que le début, la bouteille et la table de score est pas très élevé, mais le score est plus élevé que d'autres étiquettes, ainsi que les années de personne obtiennent de meilleurs résultats et plus (et plus évident), puis une bouteille de la personne et la table de score est également plus en plus élevé, ce qui indique que la personne à prédire et aider à prédire bouteille de table.

  • chiffres cinquième, nous pouvons voir que les prévisions de chaise directement contribué à la table de prédiction et un canapé.

conclusion

  • Ce document propose de renforcer l'algorithme de classification d'images multi-étiquettes, cet algorithme simule le mécanisme des cours d'apprentissage humain, des plus simples aux prévisions de l'étiquette complexe.

  • Dans cet algorithme, un renforcement de l'agent d'apprentissage, l'utilisation d'images et caractéristiques précédemment prédit l'étiquette comme un état, puis laisser la balise comme l'action, regard pour faire un taux de précision de prédiction pour obtenir la meilleure stratégie.

  • Nous démontrons l'efficacité de nos expériences sur VOC2007 et VOC2012.

références:

Ce sont les clients actuels partagent tous. Plus ouvert go vidéo de classe au collège AI Mu classe à regarder. Mise au point sur le numéro public micro-canal: AI Technology Review, la dernière fois classe ouverte disponible en direct préavis.

Google a publié tablette Chrome OS, un toit plein à un fait 6000 yuans!
Précédent
Entretien avec Xu Da dans le nouveau PDG de classement | 2017 Nian de l'industrie des médias est confrontée à la consolidation
Prochain
2019 Chongqing Tongliang passion marathon de style pays natal pour commencer à courir
exposition Millet Pocophone F2, toujours équipé de 845 Xiaolong, 845 sera le moins cher il?
Carte d'Apple arrive, Apple peut gagner cette bataille carte de crédit, il?
nature Vrai ou stupide? Baoqiang est venu personnellement pour recevoir le prix Balai d'or, à travers tout sourire!
Symposium ouvre la PNL Alibaba, enseignants et grandes entreprises et ingénieurs des étincelles de collision
Classique est de retour! chaussures de planche à roulettes VANS classe dieu retour complet cabine!
Après une actrice d'acteur de film a réuni 10, Feng Xiaogang et maintenant trouver cette peur de gamme ne peut pas se le permettre?
Google Pixel 3 Figure récompense pour commencer! Utilisateur: Liu a vu cela, je ne voulais pas l'acheter
Mise à niveau de test intelligent disque paysage Dongfeng 580 Chi-linked
Tuez-vous par surprise! OFF-WHITE x Champion étagères d'assaut commun!
Yiyanbuge sur le jeu d'ouverture! le film Donnie Yen à partir de zéro a frappé la queue, le genre de viande, brûlant à éclater!
LG, Apple fait également le téléphone à écran rabattable? Pliant téléphone écran sera la tendance future?