Les produits secs | segmentation d'interprétation panoramique tous azimuts, la construction et la prévision de la définition de tâche réseau

Technologie AI Revue de presse , Auteur Liu Universal, Université du Zhejiang maître des sciences de contrôle et de génie de l'automatisation, l'Institut des sciences et de la technologie, comme le chercheur de l'algorithme d'exclusion, algorithme panoramique segmentation OANET premier auteur, les intérêts de recherche comprennent la segmentation panoramique, la segmentation sémantique. Il est aussi le 2018 COCO + mapillary vue panoramique jeu de la division détection Kuang membres de l'équipe championne.

Cet article a paru dans presque savoir, Lei Feng réseau de réimpression autorisée.

avant-propos

Dans la vision informatique, image segmentation sémantique (sémantique Segmentation) tâche est de prédire la classe sémantique pour chaque pixel, division exemples (instance Segmentation) tâche est de prédire la zone de chaque pixel contenu dans l'instance d'objet. division panoramique a été proposé conjointement par le FAIR et l'Université de Heidelberg en Allemagne, sa mission est de donner des exemples de catégories et étiquettes ID pour chaque pixel dans l'image, la génération d'une segmentation d'image globale, unifiée.

Ensuite, nous allons interpréter pleinement la tâche de segmentation panoramique, suivant cette carte mentale vous aider à saisir les caractéristiques de la tâche globale de segmentation de panorama:

carte Interprétation de l'esprit divisé panoramique

Tout d'abord, nous allons analyser les caractéristiques de base de l'évaluation et de la division panoramique des tâches, ainsi que les dernières avancées de la recherche, puis présenter notre travail publié dans CVPR 2019 Occlusion Réseau Aware (OANET), ainsi que Kuang, en tant que groupe impliqué dans l'Académie de détection 2018 COCO l'introduction du tournoi de segmentation panoptique, la segmentation Enfin panoramique de l'étude sont résumées et analysées.

Interprétation de la tâche et l'avant-garde du progrès

tâche de segmentation panoramique, la tâche de l'objet cible la segmentation d'instance peut être divisée en segmentation des choses et des sous-tâches sous-tâches. Procédé de séparation panoramique comprend généralement trois parties distinctes: objet section de segmentation d'exemple, la section de segmentation de la substance, le résultat de branchement deux partie de sous-condensé; segmentation d'instance d'objet de segmentation de choses en général et le réseau réseau indépendant, ou la caractéristique d'image non partagée entre les paramètres de réseau, de cette façon, non seulement conduire à une plus grande charge de calcul, l'algorithme nécessite une force d'intégration post-traitement séparé des deux prédictions, et conduisent à la division panoramique ne peut pas être appliquée dans l'industrie.

Ainsi, l'optimisation peut être analysée à partir de l'algorithme de segmentation suivant l'angle panoramique

(1) des structures de châssis de réseau;

(2) l'intégration des sous-tâches;

(3) délivre la prédiction favoris;

Ces trois questions sont, respectivement, ce qui correspond à trois aspects importants algorithme de segmentation panoramique, ci-dessous nous analyser séparément les difficultés de ces problèmes, ainsi que des méthodes et des solutions améliorées proposées récemment travaux connexes.

évaluation de la segmentation panoramique

équipe FAIR est divisé en un ensemble panoramique de nouveaux critères d'évaluation PQ (Segmentation panoptique), SQ (qualité de la segmentation), RQ (qualité de reconnaissance), calculée comme suit:

indice d'évaluation PQ formule de calcul

Dans laquelle RQ est largement utilisé dans le score de détection de F1, pour le calcul de la précision de chaque instance de reconnaissance d'objets panoramique divisé, SQ représente la prédiction correspond au segment après segment marqué miou, comme indiqué ci-dessous, et seulement lorsque le segment prédit lorsque le segment d'étiquette IOU strictement supérieur à 0,5, qui est deux segments en correspondance.

étiquettes segmentation panoramique des prévisions et vrai match illustre

Peut être vu de l'équation ci-dessus, lorsque la qualité de la segmentation et l'étiquetage SQ après calcul de prédiction correspondant, les préoccupations d'évaluation PQ que la qualité de la segmentation chaque instance, quelle que soit la taille des différents exemples, à savoir les résultats de segmentation d'un grand objet et le petit objet la même influence sur le résultat final PQ. Yang et al. sont plus préoccupés de noter que dans certaines applications un grand résultat de la segmentation de scène d'objets, comme un grand portrait divisé carte de segmentation portrait, pilote automatique et d'autres objets dans le PC à proximité proposé (Parsing couverture) évaluation il est calculé comme suit:

formule de calcul de l'indice d'évaluation PC

Dans lequel, R, R « représentent des segments correspondant à la classe prédite de segments réels, | R | représente un exemple correspondant de la catégorie du nombre réel de points de pixel marquées, Ni représente la somme de la véritable type est désigné par i de pixels. Des exemples de grands objets en donnant plus de poids, de sorte que l'évaluation peut être divisée reflètent plus clairement l'indice des grands objets.

Construire un cadre de réseau

Étant donné que l'instance d'objet segmentation sous-tâches et sous-tâches gavent segmentation appartiennent à deux tâches de prédiction visuelle différente, les données d'entrée et mode d'enrichissement des données, des stratégies et des méthodes de formation afin d'optimiser la structure du réseau et la méthode est tout à fait différent de la façon dont les deux sous-tâches l'intégration et de la structure de réseau unifiée, la stratégie de formation est la clé pour résoudre le problème.

FAIR équipe de recherche simple et la structure de réseau efficace Panoptic FPN , masque de réseau de niveau division RCNN trame réseau sémantique divisé réseau complet de convolution (FCN) et Exemple unifiée conçue réseau unique prévu également deux sous-tâches, la structure du réseau tel que représenté sur la Fig.

La figure Panoptic trame de réseau FPN

La structure du réseau peut effectivement prévoir la segmentation de l'instance d'objet et de segmentation trucs sous-tâches sous-tâches. Sur la base du masque réseau RCNN FPN , les auteurs ont conçu un simple et sous-branches efficaces de segmentation de choses: la vue caractéristique de la base à différents niveaux de FPN résultant de l'utilisation des différents paramètres du réseau obtenu diagramme caractéristique de la même taille, et dans lequel une addition à la figure combinés, enfin en utilisant une interpolation bilinéaire échantillonner l'image originale à la taille, et d'autres choses de prédiction de la classe.

MIT et comme Google conjointement DeeperLab , en utilisant le processus bas à haut, tout en réalisant l'instance d'objet segmentation segmentation de sous-tâche sous-tâches choses, la structure du réseau, comme indiqué ci-dessous:

Structure du réseau DeeperLab

Le réseau contient un codeur, et la prédiction de décodeur trois liens, dans lequel, une partie du codeur et le décodeur sont partagés deux sous-tâches, en vue d'améliorer les caractéristiques de l'étage de codeur, au niveau du codeur d'extrémité à utiliser le module PAES (Atrous Spatial Pyramid pooling) < 7>; et dans la phase de décodage, en utilisant d'abord de 1 x 1 avec un codeur convolutif de rendement figure de bas niveau caractéristiques caractéristiques de la réduction de la dimension figure, utiliser moins de consommation d'espace mémoire et à la profondeur opération d'échantillonnage alternatif . dans lequel de bas niveau comprend de l'opération de la figure la figure traitée aux caractéristiques de bas niveau de la figure (1/4 format original) et la sortie du codeur (1/16 de la taille originale) assemblant, enfin, l'utilisation d'un grand deux 7 × 7 convolution noyau champ réceptives augmente, et diminue ensuite des dimensions de caractéristique par des opérations profondeur-espace.

Afin d'obtenir l'instance prévue de la cible, similaire à la méthode de représentation à base de clé, comme représenté, l'instance objet de la tête de segmentation des sous-branches, et prédit la carte thermique de keypoint (figure A), bien -range carte offset (fig. b) à courte portée et la carte de décalage (Fig. C), quatre unités de milieu de gamme carte offset (figure d), pour obtenir la relation entre chaque pixel et la clef d'instance, et ainsi de la fusion exemples de différentes classes de forme inconnue, le résultat final obtenu la segmentation panoramique.

segmentation cible d'instance d'objet prédite sous-branche tête

L'intégration des sous-tâches

Bien que la conception du réseau, peut être sous-tâches de segmentation instance d'objet et la segmentation des sous-tâches des choses en unifiant les caractéristiques du mécanisme de partage, mais liés entre eux et l'influence entre les deux sous-branche n'a pas été exploré, par exemple: deux sous-branches si la tâche peut réaliser un gain mutuel ou le gain d'effet à sens unique? Ou entre les deux sous-branches ou prédire comment la conception associera de sortie? Cette partie du problème que nous pouvons appeler l'unité entre eux pour renforcer la promotion de deux sous-tâches.

CAS Institut d'automatisation proposé Aunet , papier conçu Module PAM (Proposition Attention Module) et MAM (Masque Attention Module), respectivement, par rapport au premier plan, dans lequel l'étape RPN la figure et l'instance sortie de segmentation d'objet régions divisées, pour la segmentation de substance fournir le niveau de pixel et l'attention au niveau de l'objet d'attention, dont la structure de réseau est illustré ci-dessous:

Structure du réseau Aunet

Afin de prévoir la sortie de l'instance d'objet segmentation cohérente avec la segmentation de choses de sortie prédite, Institut Toyota conçu TASCNet , qui est une structure de réseau, comme indiqué ci-dessous:

Structure du réseau TASCNet

La zone de masque Exemples réseau instance d'objet de segmentation première sous-branche obtenue au premier plan, les caractéristiques sont mises en correspondance à la figure taille d'origine, de donner des exemples de la zone de masque de premier plan en taille réelle figure, et le masque de segmentation Exemple stuff Perspectives prévu comparer , L2 réduit au minimum la fonction de coût en utilisant deux résidus de masque.

Prévisions sortie panoramique

branches de prédiction de segmentation d'instance d'objet et sous-branches de la segmentation sous-vêtements dans le processus d'intégration, généralement par heuristiques (algorithme heuristique) pixel de traitement des conflits, par exemple simplement par segmentation d'instance d'objet des prédicteurs sous-branche sujet, et dans la sous-branche de la segmentation de l'instance d'objet combiné score basé sur le cadre de détection à titre d'exemples différents.

De cette façon a priori basée sur la logique simple, et ne résout pas le cas complexe split panoramique combiné, donc, comment concevoir une branche de module instance efficace de l'objet de la solution de segmentation et sous-branche à la segmentation stuff sortie sous-divisée du processus de fusion panoramique, question importante est panoramique répartition des tâches.

Et Hong Kong Structure du réseau chinois Uber proposé conjointement UPSnet , qui est indiqué ci-dessous:

Structure du réseau UPSnet

Tenseur dans lequel les branches des sous-sorties instance objet segmentation et sous-branches segmentation de substance par transformation par mappage, on obtient la sortie de la tête panoramique, la taille du tenseur (ninst + Nstuff) × H × W, où, N_ {inst} dynamique variable représente le nombre d'instances dans une image, substance Nstuff représente le nombre de catégories, chaque image pour laquelle les valeurs sont les mêmes, et Xstuff Xthing utilisé ci-après désigne à la fois tenseur de fonction. De plus, le réseau de pixels pour prédire la catégorie inconnue (prévision inconnue), de sorte que le réseau peut faire partie de pixels jugés catégorie inconnue et ignorée au moment du test, pour éviter de faire la mauvaise catégorie entraîne le déclin de l'indice de PQ.

Après l'obtention de la sous-branche et Stuff branches sous-sorties instance d'objet de segmentation de segmentation, après conversion indiqué ci-dessous, et mis en correspondance avec Xthing Xstuff.

schématique de la tête de segmentation panoptique

Xstuff peut être extraite directement à partir de la sortie du divisé catégorie irrégulière, la zone de masque dans le i-ième exemple Xthing Xmaski + Ymaski être obtenu, dans lequel Xmaski désigne la i ème occurrence du bloc indiqué par correspondant segmentation vraie substance branche de sortie de l'étiquette sous-catégorie zone de masque pris, Ymaski désigne la i ème occurrence de la sous-branche par exemple la carte de segmentation zone de masque obtenue à la zone d'origine du masque, le pixel final correspondant à l'aide d'une fonction standard de perte transversale d'entropie de la sortie de la tête panoramique tenseur superviser la formation.

Occlusion Aware interprétation Network Box

lien Documents:

Un réseau de bout en bout pour Panoptic Segmentation

motivation

Panorama divisé expériences, nous avons trouvé, étaient par exemple l'objet segmentation des sous-branches et la segmentation de choses prédiction sous-branche basée sur l'algorithme heuristique existant combiné, phénomène de blocage se produit entre les différentes instances. Afin de résoudre le problème d'occlusion entre les différentes instances, nous vous proposons Occlusion Aware (Network OANET), et conçu le module de commande spatiale (Module Classement Spatial), ce module peut obtenir de nouveaux points du classement grâce à l'apprentissage en ligne, et pour les exemples de division panoramique Trier fournir la segmentation.

conception de l'architecture réseau

Notre structure proposée du réseau final divisé panoramique comme indiqué ci-dessous, le réseau basé sur la segmentation d'instance d'objet d'intégration du réseau dans lequel la sous-branche et la segmentation des choses sous-branche, tout en réalisant panoramique de formation et de prévision divisée dans un réseau. Au cours de la formation pour la segmentation stuff Nous avons également procédé la supervision et la formation et la catégorie de vêtements de catégories d'objets, les expériences montrent que cela peut aider à prédire la conception de l'étoffe.

Structure du réseau OANET

Une méthode de segmentation sémantique similaire, nous proposons un algorithme simple mais très efficace, appelé Module Classement spatial, mieux en mesure d'occlusion de la poignée, dont la structure réseau est illustré ci-dessous:

Classement Spatial structure de réseau de module

Parmi première instance entrée nous résultat de segmentation tenseur est mis en correspondance avec la taille d'origine, la dimension du tenseur est le nombre d'instances des classes d'objets, les instances des différents masques de classes mappées sur le canal correspondant. Toutes les valeurs d'initialisation position de pixel tenseur est nul, des exemples de la valeur mappe de segmentation de masque est fixé à la position 1; Après avoir obtenu le tenseur grand convolution noyau extraction de caractéristiques pour obtenir pointage de la figure de commande spatiale; Enfin, nous avons calculé pour chaque instance d'un objet est scores dans l'espace ordonnée comme suit:

Ici, Si, j, représente la cls cls catégorie, le pixel (i, j) les valeurs marquer, il faut noter que Si, j, CCRS a été probabilité normalisée, mi, j est un masque de pixel Point indicateur représente un point de pixel (i, j) si les instances, chaque instance de scores de commande spatiale obtenue par la prédiction de la superficie moyenne de tous les pixels de masque dans la moyenne des scores de classement, Pobjs représente la commande de chaque instance de la partition obtenue, ce score pour panoramique et sortie.

Comme on le voit ci-dessous, lors de l'utilisation de l'algorithme de fusion de confiance heuristique commune actuelle, qui est basée sur la segmentation d'exemple de trame de détection d'occlusion comme base pour le traitement, comme le montre la trame de détection de piétons de confiance figure est significativement plus élevé que le cadre de détection tie confiance, lorsque deux cas de chevauchement, des exemples de la cravate seront bloqués piétons exemple, lorsque l'addition a été marqué module de commande spatiale, on peut prédire la fraction de commande spatiale obtenue par deux instances du module, selon trier espace classement score obtenu sera plus fiable, PQ aura une amélioration de plus.

Schéma de principe du module de commande spatiale

Analyse expérimentale

Segmentation stuff signal de supervision nous avons joué la branche de test peau, comme indiqué ci-dessous, l'expérience indique que la table tout en étant classes d'objets de formation supervisés et des trucs de classe, de fournir plus d'informations de contexte des trucs de Segmentation et d'améliorer les résultats de prédiction.

Pour explorer la manière par exemple d'objet partagé segmentation sous-branche et caractéristique segmentation de choses sous-branche, nous avons conçu différentes expériences et la structure de partage, comme indiqué ci-dessous, l'expérience indique que la table, la structure caractéristique du modèle de connexion d'infrastructure partagée dans laquelle le FPN peut être améliorée fractionnés indicateurs panoramique PQ.

Pour explorer l'efficacité spatiale classement module de notre algorithme proposé, nous avons réalisé à différentes expériences de modèle de base, comme indiqué ci-dessous, dans laquelle, w / résultats du module classement spatiales, nous vous proposons indication du module de commande spatiale obtenue à partir des résultats expérimentaux comme on peut le voir, le module de commande spatiale peut améliorer de manière significative les résultats du panorama d'évaluation divisé en différents modèles de base.

Pour tester l'impact différent de convolution des paramètres sur le processus d'apprentissage de blocage, réalisé l'expérience suivante, les résultats montrent que la convolution augmentation du champ récepteur peut obtenir de l'aide d'apprentissage des fonctionnalités plus contextuelles, et obtenir de meilleurs résultats.

Le tableau suivant est un algorithme de comparaison et les indicateurs d'information existants proposés dans le présent document peut être vu à partir des résultats, l'algorithme proposé peut atteindre des résultats optimaux.

Résumé et analyse

De l'analyse ci-dessus du point de vue de la littérature, les différentes tâches de division d'émission importante panoramiques ont été largement explorés, mais il est encore une tâche division panoramique difficile, le bord d'attaque de la scène pour comprendre le problème, il y a encore quelques questions à explorer:

Tout d'abord, étant donné que la division panoramique en divisant chaque catégorie, deux prédicteurs obtenus sous-tâche de fusion les cas prévus sous-tâche division irrégulière sous-tâches, le procédé comprend l'algorithme de l'opération de traitement plus en détail, y compris les segments de filtre, inspirée algorithme de fusion détermine pixel ignorer analogues. Les détails des indicateurs de répartition ont un impact plus grand sur le panorama, dans une certaine mesure, entravé l'évaluation et la comparaison des différents algorithmes;

En second lieu, même si un indice d'évaluation peut être divisée meilleure évaluation panoramique dans l'exemple divisant la précision de détection d'objet panoramique, et la précision est divisée objet instance de classe irrégulière, mais elle est plus concentrée sur l'indicateur d'évaluation chaque cas, et non après chaque instance la différence entre les deux. Document proposé un meilleur indicateurs d'évaluation PC (Parsing couverture) pour les grands objets, de sorte que la segmentation des objets volumineux impact plus important sur les indicateurs d'évaluation finale dans certaines des préoccupations des grands objets tels que la segmentation portrait de tâches, conduite automatique plus efficace;

En troisième lieu, la tâche neutronique des problèmes panoramique d'intégration de la segmentation, l'étude est encore plus être considérée comme divisant la segmentation d'instance d'objet de collection panoramique et la segmentation des choses deux sous-tâches et la façon de procéder de la situation générale, la segmentation de l'unité, ciblée visant à répondre la segmentation du réseau unifié panoramique revêt une grande importance.

références

Kirillov A, il K, Girshick R, et al. Segmentation Panoptic . ArXiv prépublication arXiv: 1801,008682018.

Kirillov A, R Girshick, Il K, et al. Panoptic Networks Pyramid Feature . ArXiv prépublication arXiv: 1901,02446, 2019.

Long J, Shelhamer E, Darrell T. réseaux entièrement convolutifs pour la segmentation sémantique // Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance des formes 2015 :. 3431-3440.

Il K, Gkioxari G, dollar P, et al. Masque r-cnn // Actes de la conférence internationale IEEE sur la vision informatique 2017 :. 2961-2969.

T Lin Y, P dollar, Girshick R, et al. réseaux de pyramide d'entité pour la détection d'objet // Actes de la Conférence IEEE sur Vision par ordinateur et reconnaissance 2017 :. 2117-2125.

Yang T J, Collins M D, Zhu Y, et al DeeperLab :. Single Shot image Parser . ArXiv prépublication arXiv: 1902,05093, 2019.

Chen L C, G Papandreou, Kokkinos I, et al Deeplab :. segmentation d'images sémantique avec des filets convolutifs profondes, convolution Atrous, et crfs entièrement connectés . IEEE transactions sur l'analyse du motif et de l'intelligence artificielle, 2018, 40 (4): 834-848.

Shi W, Caballero J, Huszár F, et al. En temps réel image unique et super-résolution vidéo à l'aide d'un sous-pixel réseau de neurones convolutionnel efficace // Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance des formes 2016 :. 1874-1883.

Sajjadi M S M, R Vemulapalli, M. Brown Frame-récurrente de super-résolution vidéo // Actes de la Conférence IEEE sur Vision par ordinateur et reconnaissance 2018 :. 6626-6634.

G Papandreou, Zhu T, Chen L C, et al PersonLab :. personne pose estimation et de segmentation d'instance avec un, sur la base partie-bas vers le haut, le modèle géométrique d'enrobage // Actes de la Conférence européenne sur l'ordinateur Vision (ECCV) 2018 :. 269-286.

Tychsen-Smith L, L. Petersson Denet: Scalable détection d'objet à temps réel avec un échantillonnage clairsemé dirigé  // Actes de la Conférence internationale IEEE sur l'ordinateur Vision 2017 :. 428-436.

Law H, Deng J. Cornernet: Les objets de détection de paires de points-clés  // Actes de la Conférence européenne sur l'ordinateur Vision (ECCV) 2018 :. 734-750.

Li Y, Chen X, Z Zhu, et al. Réseau unifié guidée Attention pour la segmentation panoptique . ArXiv prépublication arXiv: 1812,039042018.

Li J, Raventos A, Bhargava A, et al. Apprendre à des choses fusibles et d'autres choses . ArXiv prépublication arXiv: 1812,011922018.

Xiong Y, Liao R, Zhao H, et al UPSnet :. Un réseau unifié Panoptic Segmentation . ArXiv prépublication arXiv: 1901,03784, 2019.

Peng C, Zhang X, Yu G, et al Grand Matters Kernel -. Améliorer sémantique Segmentation par Global Network Convolutif  // Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance des formes 2017 :. 4353-4361.

Cliquez sur Lire l'original , Rejoindre des groupes de discussion CVPR il ~

Shu jamin: 20000000 Simple Life Festival Bureau, son rue jeune homme pensif voulait la musique d'amour
Précédent
Traditionnel hanbok + art + défilé de mode Monument de la Libération
Prochain
Pour répondre aux besoins de voyage de toute la famille, ce qui est très approprié pour plusieurs 7 SUV
Akira est le suprême et la coopération, pour commémorer le 35e anniversaire de la première à révéler cadeau!
AI Pratt & Whitney ont partagé la taille des données en matière de protection de la confidentialité des données? CCF TF « étude fédérale » Séminaire donne la réponse
Réalisé au CR-V, RAV4, Dongfeng Citroën noblesse serait un « style chaud » « Showstopper » il?
Si vous souhaitez ouvrir plus de 3000 kilomètres de conduite, la voiture ce que le moteur de la voiture est préférable d'utiliser?
Heilongjiang jouer gros cette fois-ci! Aujourd'hui, de 12 résidents à envoyer de l'argent, l'arrivée la plus rapide au cours de l'année, vous avez certainement pris
CONVERSE aussi gravé? De Tokyo à Osaka, la limite de la ville avec un ruban de 80 ans vous sauvegardez!
« terrain de chasse » « service d'urgence » sont en vol stationnaire six points, pourquoi l'industrie nationale, mais le drame américano-japonais PK TVB?
Dynamic | Google AI dernier blog: modèle de simulation vidéo de stratégies d'apprentissage
Geely acquisition de Terrafugia voiture volante
fournisseur d'électricité de voiture d'occasion move collective du commerce des services financiers?
Trop plein! Le résumé de sa tante de 25 conseils de cuisine, facile à éclater la nouvelle année!