[Ali] AAAI papier propose un nouveau cadre de description de l'image pour résoudre le problème gradient disparaître

Ji-won nouvelle recommandation

Source: Alibaba AI Labs

Editeur: Craig

[New Ji-won EXAMEN Ali AI Labs proposé dans un article récent, une grossière à fine trame prédictif d'image à niveaux multiples décrit, qui est constitué par une pluralité de décodeurs, chacun d'eux fonctionne sur la base d'une sortie de l'étage précédent, de sorte qu'il peut obtenir de plus en plus Plus la description de l'image. En fournissant une fonction objectif d'apprentissage à un contrôle intermédiaire, la méthode d'apprentissage pour résoudre le problème disparaît gradient dans le processus de formation.

La méthode décrite image conventionnelle phrase sont généralement formés d'un seul décodeur de scène, ce qui est difficile à générer décrit granulaire abondant. D'autre part, depuis la disparition du gradient, le modèle de description de l'image multi-niveaux et de formation difficile. Dans cet article, nous proposons une trame d'image de prédiction décrit grossière à fine à plusieurs niveaux, qui est constitué par une pluralité de décodeurs, chacun d'eux fonctionne sur la base d'une sortie de l'étage précédent, de manière à pouvoir obtenir un plus en plus fines Description de l'image. En fournissant une fonction objectif d'apprentissage à la méthode d'apprentissage supervisé intermédiaire, nous vous proposons de résoudre le problème de la disparition du gradient dans le processus de formation.

En particulier, il convient de noter, nous utilisons une méthode d'apprentissage de renforcement pour l'optimisation de notre modèle, qui peut tirer profit de chaque algorithme d'inférence de sortie du décodeur de temps de test intermédiaire et sa sortie avant un décodeur pour récompense normalisée cela peut être résolu bien connu problème de biais d'exposition (Problème de biais d'exposition) et Perte - évaluer non-concordance (Problème de non-concordance Perte-évaluation). Nous avons effectué un certain nombre d'expériences pour évaluer notre méthode proposée sur MSCOCO, les résultats montrent que notre méthode peut atteindre les meilleures performances actuelles.

De l'grossière à fine trame prédictif à plusieurs étages

La difficulté est de décrire la conception du modèle d'image peut utiliser efficacement l'information et de génération d'image plus proche de la description riche de l'image de l'humanité. Poussé par les progrès récents dans le traitement du langage naturel, image décrit les méthodes actuelles suivent généralement Encodage - décodage Cadre. Ce cadre est basé sur le réseau de neurones convolutionnel (CNN) un encodeur d'image et d'un décodeur basé sur des phrases cycliques réseau de neurones (RNN) composé d'un, il existe de nombreuses variantes pour la description de l'image. Ces images d'apprentissage de manière classique selon les méthodes décrites principalement mot de vérité terrain (mots de réalité de terrain) et d'une image, en utilisant la propagation arrière, maximise sensiblement la probabilité que chaque mot avant de la valeur réelle.

Il y a trois principal problème avec ces méthodes de description de l'image existante. Tout d'abord, ils sont difficiles à générer une richesse de la description à grains fins. En second lieu, il y a un écart d'exposition entre la formation et les tests. Troisièmement, l'évaluation de la perte ne correspond pas au problème.

Compte tenu des énormes défis de la description riche génération de modèle en une seule étape de l'image, nous sommes Cet article propose Pour un cadre de plusieurs étapes de prédiction de fin brut. Notre modèle consiste en une série de phrases et un décodeur codeur image peut générer de façon répétée et les détails plus fins plus fins de la description de l'image. Cependant, la construction d'un tel décodeur à plusieurs étages directement dans la description de l'image gradient de modèle à risque de disparaître. Zhang, Lee et Lee 2016, Fu, Zheng, et Mei 2017 des travaux de recherche sur les émissions de reconnaissance d'image que la couche médiane de surveillance très approfondie du réseau propice à l'apprentissage, inspiré par ces études, nous avons pour chaque décodeur de scène superviser la mise en uvre du milieu.

En outre, Rennie et al 2017 décrit l'étude récente d'apprentissage par renforcement des images utilisées (RL) pour résoudre la perte - non-concordance d'évaluation, et également formé comme une référence contenue dans le processus de raisonnement pour résoudre le problème de l'écart d'exposition, nous avons également conçu une méthode similaire basée sur une formation intensive pour apprendre, mais il est devenu notre étendu de cadre à plusieurs niveaux à un seul niveau, dans lequel chaque niveau de supervision a été présenté comme un prix intermédiaire. En particulier, il convient de noter, nous utilisons une méthode d'apprentissage de renforcement pour l'optimisation de notre modèle, qui peut tirer profit de chaque algorithme d'inférence de sortie du décodeur de temps de test intermédiaire et sa sortie avant un décodeur pour récompense normalisée .

De plus, en réponse à notre rude au cadre d'apprentissage bien, nous Notez que utilise un modèle d'attention visuelle empilés pour prédire les informations d'extrait pour plus de mots grains fins chaque étape. La figure 1 montre un schéma de notre grossière proposée au cadre fine, quel réseau se compose de trois mémoire à court et à long terme empilés (de LSTM). Générer un premier LSTM décrit l'image grossière échelle, ce dernier est utilisé en tant que réseau à échelle décodeur LSTM. Nous portons une attention sur le droit d'entrer dans chaque modèles sont obtenus niveau avant un lourd et vecteur caché, qui est utilisé comme indices homonymie après niveau. Ainsi, chaque décodeur génère un mots de notes pondérées et des phrases plus fines et plus fines.

Figure 1: Nous vous proposons de gros amende cadre schématique. Notre modèle est constitué d'un codeur d'image (CNN) et une série de décodeur de phrases (LSTM réseau basé a noté). L'image du modèle en entrée, de continuer à affiner l'amende de la description de l'image grossière. Ici, nous montrons une mise à jour de la description de l'image à deux étages progressive (gris et gris foncé).

La contribution principale de ce travail comprend: (a) un brut raffiné au cadre décrit pour l'image, on peut utiliser de plus en plus raffinés poids d'attention complexité croissante progressivement du modèle, (b) en utilisant le normalisé milieu de renfort récompense directe modèle d'optimisation de la méthode d'apprentissage. Les expériences montrent que notre méthode bien performé sur MSCOCO.

méthode

Dans cet article, nous considérons le problème de l'apprentissage généré image description. Notre algorithme construit un modèle de grossière à fine, elle a le même modèle à un seul étage cible, mais avec une couche intermédiaire supplémentaire entre la couche d'entrée et la couche de sortie. Nous avons d'abord l'image d'entrée et le mot cible historique de l'or, comme en maximisant le nombre de buts chaque mot successif, mais le modèle de formation, puis utiliser l'index pour évaluer l'optimisation du modèle de niveau de la phrase. En conséquence, chaque décodeur de phrase intermédiaire prédite sera décrite image plus raffiné, le résultat final d'un décodeur prédictif tel que décrit dans l'image finale.

codage d'image

Nous avons d'abord codage d'image donné des caractéristiques d'image dans l'espace. Plus précisément, on extrait des caractéristiques d'image à partir de la dernière spire de la couche CNN, puis d'utiliser l'espace de la taille de cellule moyenne adaptative de ces caractéristiques à une représentation spatiale ajustement de taille fixe.

Grossière à fine décodage

Notez que grossière générale figure aux phrases fines décodeur est constitué par une série de décodeur à base de gros et le décodeur est à noter que l'amende, le décodeur peut être affiné en fonction de la prévision précédente pour chaque mot d'un décodeur après la moindre idée ( attention la carte). La première étape est un gros notre décodeur de modèle, peut être obtenu à peu près selon l'image globale caractéristiques décrites prédiction. Dans les stades ultérieurs, chaque étage est un décodeur de fin, et caractéristique d'image peut être basée sur une sortie d'une image précédente prédite est mieux décrite. En particulier, il convient de noter que nous utilisons la note juste en face d'une condamnation lourde pour fournir une zone après la prédiction de mots. En d'autres termes, nous décodé caractéristiques d'image avec plusieurs étapes, chaque étape des prévisions sont affinées pour prédire les résultats de l'étape précédente.

La figure 2 montre notre gros projet à l'architecture de décodage fine, qui, après chaque niveau en utilisant le contrôle intermédiaire (récompense). Rangée supérieure (gris) comprend un décodeur grossier (à gauche) et d'une note sur la base de deux fines empilées décodeur (en mode d'apprentissage), compte tenu de la ligne suivante de raisonnement dans le décodeur de mode de fin (décodage gourmand) sous, avec pour calculer l'incitation à venir au milieu de la surveillance intégrée.

décodeur rugueux. Nous commençons dans la première étape du décodage de l'espace de recherche approximative, nous utilisons un LSTM apprentissage d'un décodeur rugueux ici, appelé

.

Dans une entrée de mot cible par l'avant de chaque pas de temps (connecté à la fonctionnalité globale de l'image) et de l'état caché avant configuration.

décodeur étroit. Dans le multi-étape suivante, chacun décodeur bien noteront du lourd précédent poids LSTM et mot caché prédit et caractéristique d'image à nouveau. Chaque décodeur d'une amende

réseau note et une constitution modèle.

Entrée à chaque pas de temps sont inclus un élément d'image qui ont eu lieu, et avant l'incorporation d'un mot caché, un cache de la LSTM avant mise à jour.

modèle d'attention stratifié. Comme décrit ci-dessus, notre décodeur de mots à base rugueux génère une caractéristique globale de l'image. Mais dans de nombreux cas, associés à chaque mot seulement une petite partie de l'image. Parce que chaque indépendant des régions d'introduction ainsi image prédite bruit, il est prévu des mots en utilisant les caractéristiques d'image globales seront les résultats sous-optimaux. Par conséquent, nous avons mis en place un mécanisme de note, ce qui peut améliorer considérablement les performances de la description de l'image. Notez que le mécanisme généralement obtenir une configuration spatiale (carte spatiale), qui met en évidence la région d'image prédite associée à chaque mot. Afin d'extraire plus granulaire prédiction de mot d'information visuelle, nous avons utilisé un stratifié dans ce modèle d'attention à l'étude pour filtrer le bruit et progressivement positionné avec la région de prédiction de mots fortement corrélés. Dans chacun des étage de traitement précis, ce sera notre modèle d'attention à l'attention et l'image de droite de la fonction précédente une nouvelle opération.

apprentissage

La méthode grossière à fine décrite ci-dessus peut obtenir une architecture de profondeur. Une telle formation de réseau profond peut facilement se produire lorsque l'intensité diminue à gradient de disparaître, à savoir l'amplitude du gradient va inverser la propagation d'une pluralité de couches intermédiaires. Une solution naturelle à ce problème est d'intégrer les objectifs de supervision et de formation à la couche intermédiaire. Chaque gros niveau aux objectifs de formation fins décodeurs phrase sont des mots prédit à plusieurs reprises. Nous avons d'abord former le réseau pour chacun défini par une fonction de perte pour minimiser une perte d'entropie croisée.

Cependant, seule la perte de fonction ici la formation ne suffit pas.

Afin d'optimiser chaque étape de l'indice d'évaluation, nous allons décrire le processus de génération d'image est considérée comme un problème d'apprentissage de renforcement, qui est un environnement donné (état précédent), nous voulons l'agent (comme RNN, LSTM ou GRU) environnement de visualisation ( caractéristiques de l'image, et caché avant le mot) et l'action de faire (pour prédire le mot suivant). Après avoir généré une phrase complète, l'agent observera la récompense de niveau de la phrase et mettre à jour leur état interne.

expérience

ensembles et les données de réglage

Nous avons évalué notre méthode proposée sur MSCOCO ensemble de données.

Méthode de référence pour la comparaison

Afin de comprendre l'efficacité de notre méthode proposée, nous avons été comparés entre eux pour les modèles suivants:

LSTM

. Nous Le Vinyals et al. 2015 Cadre proposé met en uvre un modèle de description d'image basée sur une seule couche LSTM. Nous avons également après la LSTM modèle monocouche ajouté deux autres réseau LSTM, nous appellerons

et

Nous avons mis deux modèles de description d'image basée sur l'attention visuelle: modèle Xu et al 2015 a proposé la note douce.

Et Anderson et al. 2017 modèle d'attention haut vers le bas proposé

Stack-Cap et Cap-Stack *. Stack-Cap est la façon dont nous avons proposé, Stack-Cap * est une version simplifiée. l'architecture Stack-Cap et Cap-Stack * similaire, mais Stack-Cap appliqué en cascade noter que notre modèle proposé plutôt que d'un modèle d'une attention particulière.

analyse quantitative

Dans l'expérience, nous avons d'abord le modèle a été optimisé en utilisant la perte d'entropie croisée standard. Nous présentons notre modèle et le modèle de référence de la performance de test Karpathy sur la répartition, comme le montre le tableau 1. Notez que tous les résultats présentés ici ne sont pas utilisés pour affiner la ResNet-101.

Tableau 1: Comparaison de la performance de l'MSCOCO, dans lequel B @ n désigne BLEU-n, M signifie METEOR, C désigne le cidre. Ici, toutes les valeurs sont en pourcentage (chiffres en gras sont les meilleurs résultats).

Après le modèle d'optimisation en utilisant la perte d'entropie croisée, nous utilisons basé sur l'algorithme d'apprentissage de renforcement des indicateurs de Cidre Ils sont optimisés. Le tableau 2 montre l'utilisation de CSTD (Rennie et al. 2017) ont montré quatre modèles optimisés pour les mesures de Cidre et en utilisant notre gros projet à bien (C2F) apprentissage optimisation des performances des deux modèles. Nous pouvons voir notre modèle Stack-Cap sur tous les indicateurs ont des avantages significatifs.

Le tableau 3 compare les résultats de notre modèle Stack-Cap (C2F) à d'autres méthodes existantes sur la scission de test MSCOCO Karpathy. Stack-Cap sont les plus performants de tous les indicateurs.

L'évaluation en ligne. Le tableau 4 montre la performance de notre gros Stack-Cap proposé au modèle fin de l'apprentissage et de la formation dans l'évaluation officielle serveur MSCOCO. On peut voir en comparaison avec les meilleures méthodes actuelles, notre méthode est très compétitif. Note, CSTD: résultats Att2in (. Ens 4) est d'utiliser quatre modèles atteindre ensemble, et nos résultats sont générés en utilisant un seul modèle.

Analyse qualitative

Afin de montrer que notre gros projet d'une amende méthode peut générer progressivement mieux et une meilleure image description image description et les zones de ces adaptive concernées ont une bonne corrélation, nous accordons une attention à l'espace Description de mot poids générés sont visualisés . Nous notons que le 16 suréchantillonnage facteurs de pondération de l'échantillon, et permet l'utilisation d'un filtre gaussien comme la taille de l'image d'entrée, et la carte d'attention superposée à l'image d'entrée d'origine tout l'espace sur l'échantillonnage.

La figure 3 montre une partie de la description générée. Notez que plusieurs couches par progressivement le raisonnement, le modèle Stack-Cap peut être positionné progressivement au bruit du filtre et la prédiction de mot actuel domaine très pertinent. Vous trouverez dans notre modèle Stack-Cap peut apprendre à l'alignement avec l'intuition humaine correspondant à la hauteur. Dans la première image, par exemple, représente une comparaison du niveau grossier généré après la première description de raffinement généré par le premier décodeur comprend une fine « chien », une amende second décodeurs seulement été « chien », également identifié le « parapluie ».

De plus, notre méthode peut générer des phrases plus descriptives. Par exemple, notez la visualisation d'image Jets show modèle Stack-Cap peut interroger la relation de ces jets et leur longue traînée de fumée derrière car ils mettent en lumière les zones d'intérêt ont un poids élevé. Cet exemple et d'autres Remarques Notez que la empilée explorer plus efficacement l'information visuelle comme une prédiction de séquence. Autrement dit, nous utilisons les stratifiés méthodes indiquées peuvent être considérer finement l'information visuelle de l'image grossière à laquelle l'image est communément comprise par grossier processus de fin est très similaire au système visuel humain.

Télécharger l'original:

https://102.alibaba.com/downloadFile.do?file=1518074198430/AAAI2018Stack-Captioning_Coarse-to-Fine%20Learning%20for%20Image%20Captioning_12213(1).pdf

La vraie chose! la police Hanchuan vivent dans le premier tour des actions de concentration et de contrôle
Précédent
Choisissez une idée, quelques lauréats du prix Nobel chinois! Utilisateur: Sa contribution n'a pas besoin de ce prix pour prouver
Prochain
Saint Valentin regardant une liste des 12 plus salle de bain de l'hôtel extatique du monde ~
Pei Laipei Ressorts Plaza Sao Tour affection, en l'Italie a manqué la circonscription des armes à feu ou à la guerre en Chine
Revenu arrêté six défaites consécutives, la première moitié magasin de fou, Ajisen Ramen va « jusqu'au moment sombre »?
[Les réseaux de neurones, il rêveraient de moutons électriques? ] Erreur fatale « Correspondance de modèle » exposé des réseaux de neurones
techniques de plantation de riz: Machine à revenu ratoon partage de la technologie de la culture du riz
Pour exprimer leur colère a lancé le frère du gars, jamais attendu ...... police si les gens la tête larmes
semaine un chaud détail | Liu Qiang Est a été attribuée à une agression sexuelle dans les étudiants des États-Unis, a déclaré Jingdong était des allégations mensongères
« La colère claire Xiangxi » chaud le réseau? Chen F, j'ai quelque chose à dire!
poivre vert comment la fécondation? compétences eau poivre vert et de gestion des engrais
Xiaogan 2 homme commis le crime ainsi que les autres se sont enfuis en voiture, a été intercepté par la police
« Wife 2 » Record sont montés à bord de la couverture des médias étrangers! Ce touristes chinois ville ultra-petit si beau soleil
Valeur île véritable! 20 yuans manger des crevettes, 200 par personne séjournant dans un hôtel, par le certificat de plongée test façon