l'apprentissage en profondeur toute solution de segmentation sémantique: de FCN, SegNet à chaque version DeepLab

Wang récemment compilé à partir de Blog Qure.ai

Qubit produit | Numéro public QbitAI

segmentation de l'image est la segmentation automatique de la machine à partir d'une zone cible de l'image, et l'identification du contenu dans celle-ci.

Qubit recommandé aujourd'hui cet article examine l'étude en profondeur de segmentation d'images sémantique dans le processus de développement.

Publier cet article Qure.ai, est une entreprise avec l'apprentissage en profondeur pour lire la société d'imagerie médicale, ils trier la profondeur de l'apprentissage segmentation sémantique sur le blog officiel.

Ils espèrent que, grâce à cette introduction, que chacun sache c'est arrivé à maturité relativement dans le traitement de l'image naturelle, mais les technologies émergentes dans le développement des images médicales ont encore besoin.

Auteur Sasank Chilamkurthy trois parties recherche de segmentation introduit sémantique:

Résumé des solutions connexes, la recherche du concept de segmentation sémantique.

Les éléments suivants compilées à partir Qure.ai blog officiel:

Qu'est-ce que la segmentation sémantique est?

Segmentation sémantique de l'image en cours de traitement, en particulier au niveau des pixels, qui est, le procédé pourrait attribuer à chaque pixel de l'image à une classe d'objets. Ce qui suit est un cas spécifique.

 A gauche de l'image d'entrée, l'image de droite à travers la sortie de la segmentation sémantique.

Ce modèle non seulement d'identifier la moto et le conducteur, mais aussi pour marquer les limites de chaque objet. Ainsi, différentes fins de classification, les modèles concernés d'avoir un pouvoir prédictif intensif au niveau pixel.

Actuellement, deux études de segmentation sémantique pour le plus important ensemble de données est VOC2012 et MSCOCO .

VOC2012:

MSCOCO:

Quels sont les moyens?

Avant d'apprendre la profondeur de l'application de la méthode champ de vision informatique, les chercheurs ont généralement être construits pour une utilisation classificateur segmentation sémantique texton forêt (TextonForest) ou Forêt Aléatoire (Random Forest).

réseau de neurones convolutionnel (CNN), non seulement pour obtenir une classification bonne image et la segmentation en question a fait de grands progrès.

Dans un premier temps, classement de bloc d'image Est une méthode couramment utilisée pour l'apprentissage en profondeur, à savoir par l'image autour de chaque blocs de pixels, chacun correspondant à chaque pixel est divisé en catégories. Dans lequel, en utilisant des blocs d'image est une couche de réseau principalement classifiées ayant typiquement un entièrement connecté, l'image d'entrée doit être un des blocs de taille fixe.

2014, Long et al., Université de Californie, Berkeley proposé convolution complète du réseau (Fully Convolutif Networks) Promouvoir la structure d'origine CNN, Sans avoir la couche complète de connectivité peut être dense prédiction.

La structure proposée est telle que les cartes de segmentation d'images peuvent être générées de toute taille, et est comparée à la classification des blocs d'image, mais aussi d'améliorer la vitesse de traitement. Plus tard, presque toutes les dernières recherches sur la segmentation sémantique ont adopté cette structure.

Un autre problème avec la couche de connexion en plus de la structure, est difficile à utiliser dans le problème de partitionnement de réseau CNN est la couche en gestion commune est présente. Piscine de la couche supérieure peut non seulement augmenter le champ récepteur de la convolution, mais aussi l'arrière-plan tout en rejetant les informations de position de polymérisation en partie. Cependant, les besoins de la méthode de segmentation sémantique à des classes de motifs ajustés avec précision, et doivent donc conserver les informations de position dans la couche cellulaire mis au rebut.

Les chercheurs ont proposé deux formes différentes de la structure pour résoudre ce problème.

La première méthode consiste à coder - structure de décodeur (codeur-décodeur). Dans lequel le codeur utilise un conicités de la couche cellulaire dimension spatiale des données d'entrée, et le décodeur à rétablir progressivement les détails de la cible et les dimensions spatiales correspondant par la couche de déconvolution, la couche de réseau, et analogues. Entre du codeur au décodeur, généralement il y a une information de connexion directe pour aider le décodeur mieux les détails de cibles de récupération. Dans cette méthode, une structure de réseau typique du U-Net.

 Un codeur typique - structure de décodeur U-Net

La deuxième méthode utilise une structure appelée une convolution creuse, et en plus de la structure de la couche de cellules.

 convolution creux, lorsque le rapport est égal à 1, est la structure de convolution classique.

Champs conditionnel aléatoire (Random Field conditionnel, CRF) dans le processus de segmentation généralement pour améliorer le post-traitement. Le CRF est une méthode basée sur l'intensité des pixels de l'image sous-jacente de « lissage » modèle de la figure divisé, à une intensité de pixel d'exécution sera similaire au point marqué de la même classe. Sous condition aléatoire Les champs peuvent être ajoutés pour améliorer la méthode des scores finaux de 1 à 2%.

 L'effet du développement de la méthode CRF. b sera classée comme une dimension figure CRF divisée méthode d'entrée, trois types de c, d, e image montre une variante méthode CRF, CRF une sorte de structure e la photo largement utilisé.

Ensuite, nous allons trier des papiers représentatifs, d'introduire une structure de séparation à partir de l'évolution du réseau FCN.

Ces structures sont utilisées pour les données de test mis en VOC2012 effet pratique.

Des recherches intéressantes

Ensuite, nous suivrons l'ordre des articles publiés pour présenter les documents suivants:

1. réseau FCN;

2. réseau SegNet;

3. convolution creux (dilatée Convolutions);

4. DeepLab (V1 et V2);

5. RefineNet;

6. PSPNet;

7. Big noyau (grandes questions du noyau);

8. DeepLab v3;

Pour chaque papier ci-dessus, sera indiqué séparément ci-après et a expliqué la principale contribution, les résultats des tests ont également affiché de ces structures concentrées dans les données VOC2012 IOU.

FCN

papier:

Réseaux entièrement pour convolutifs sémantique Segmentation

Le 14 Novembre 2014 soumis au Arvix

https://arxiv.org/abs/1411.4038

La principale contribution:

  • La fin de convolution réseau sémantique étendue de segmentation;

  • réseau IMAGEnet une nouvelle formation pour le problème de pré-partitionnement;

  • En utilisant la couche de déconvolution sur les échantillons;

  • Il a proposé d'améliorer la rugosité de la connexion de saut échantillonné.

explication spécifique:

L'essentiel est que l'article: Classification couche réseau entièrement connecté peut être considérée comme une opération de convolution en utilisant un noyau de convolution pour traverser la région d'entrée entière.

Ceci correspond au réseau de l'évaluation du classement initial superposé sur le bloc d'image d'entrée, mais un rendement plus élevé par rapport à précédemment calculée, car les blocs d'image dans la zone de chevauchement, pour partager les résultats.

Bien que cette méthode n'est pas unique à cet article, ainsi qu'un article sur overfeat également utiliser cette idée, mais il ne s'améliore de manière significative l'effet pratique sur le jeu de données VOC2012.

 Structure de la couche de convolution réalisée entièrement connecté

Après que le modèle de réseau connecté couche entièrement pré-formé comme la convolution de VGG, étant donné que la cellule CNN de l'opération du réseau, obtenue par échantillonnage des restes de fréquences caractéristiques.

Lorsque déconvolution est réalisée sur la couche d'échantillon, au lieu d'utiliser simple interpolation bilinéaire, mais le fonctionnement d'interpolation par l'apprentissage réalisé. Il est également appelé la couche réseau alambiqué convolution complète, convolution ou convolution de fractale Transpose.

Toutefois, étant donné qu'une partie de l'information perdue dans l'opération de mise en commun, de sorte que même avec l'opération couche de déconvolution suréchantillonnage génère carte de segmentation grossière. Par conséquent, il a également introduit le saut de la connexion des caractéristiques du spectre à haute résolution.

Commentaires score Source 62,267,2 classement a pas augmenté le classement de l'élan de l'élan (Description non d'origine)

 réseau FCN sur la base des résultats des tests VOC2012

Commentaire personnel:

contribution à la recherche de cet article est très important, mais les dernières recherches a permis d'améliorer ce résultat dans une large mesure.

SegNet

papier:

SegNet: Une profonde Convolutif COdeurDECodeur architecture pour l'image Segmentation

Le 2 Novembre soumis à Arvix ici à 2015

https://arxiv.org/abs/1511.00561

La principale contribution:

Indice maximale du pool est transféré au décodeur, la meilleure résolution de la division.

explication spécifique:

FCN dans le réseau, entraînant une carte de segmentation grossière par la convolution de la couche de connexion et le nombre de sauts, afin d'améliorer l'effet des sauts introduit plus de connexions.

Cependant, seule la fonction de copie de l'encodeur réseau FCN pour copier le réseau Segnet indice maximum de la piscine. Cela rend l'utilisation de la mémoire, SegNet plus efficace que FCN.

 Structure de réseau SegNet

Pas de commentaires 59,9 classements score Source

 SegNet sur les résultats des tests de référence VOC2012

Commentaire personnel:

les réseaux et les réseaux sont FCN SegNet apparaît en premier codeur - structure de décodeur, mais le réseau de la valeur de référence SegNet ne peut pas répondre à la demande pour une utilisation pratique.

convolution vide

papier:

Contexte multi-échelles d'agrégation par Dilated Convolutions

Le 23 Novembre ici à 2015 soumis au Arvix

https://arxiv.org/abs/1511.07122

La principale contribution:

  • En utilisant une convolution creuse, qui est une convolution peut être utilisée pour prédire la couche dense;

  • Nous vous proposons l'utilisation de convolution creux dans un état d'agrégation multi-échelle « module arrière-plan. »

explication spécifique:

opération piscine augmente le champ récepteur, contribuent au réseau de classification. Cependant, la division cellulaire dans le processus de fonctionnement est également réduit la résolution.

Par conséquent, la couche de convolution vide du papier, il est proposé que ces travaux:

 Vide convolution schématique

couche de cavité convolution sans dégrader la dimension spatiale correspondante champ récepteur augmente l'indice.

Dans la prochaine DeepLab mentionné, la circonvolution creuse poreuse est appelée convolution (de convolution Atrous).

Pour retirer les deux couches de cellules finales du réseau de classificateur pré-formé (VGG se réfère ici à un réseau), et une couche de convolution suivante substitué convolution creux.

En particulier, l'opération de convolution entre la couche de mise en commun 3 et la couche 4 de la couche de la cellule 2 est creux convolution, l'opération de convolution après la couche de cellules 4 est une couche de convolution creux 4.

Modèle de base (module frontend) proposé dans cet article peut être obtenu des résultats de prédiction dans un dense sans augmenter le nombre de paramètres.

ARRIERE-PLAN article mentionné module de formation individuel Module frontal de sortie, en tant que modèle d'entrée. Ce module est l'obtention d'une hiérarchie de convolution creux avec différents degrés d'expansion, de sorte que l'agrégation et l'amélioration de la prédiction d'arrière-plan du module d'extrémité avant multi-échelle.

Commentaires sources score fin avant de 71,3 convolution fond de papier vide au-dessus 74,7 + 73,5 frontal frontal fond + 75,3 + CRF au-dessus du fond avant + + CRF - RNN Ibid.

 Circonvolution les résultats des tests de référence vide sur VOC2012

Commentaire personnel:

Il convient de noter que la taille prédite par le modèle divisé la taille de l'image originale est la figure 1/8. Ceci est presque toutes les méthodes ont des problèmes, la segmentation finale obtenue par la méthode d'interpolation de la figure.

DeepLab (V1 et V2)

Thèse 1:

Segmentation de l'image sémantique avec Deep Convolutif Nets et entièrement connecté CRFs

Le 22 Décembre 2014 soumis au Arvix

https://arxiv.org/abs/1412.7062

Document 2:

DeepLab: Image sémantique Segmentation Deep Convolutif Nets, Atrous Convolution, et entièrement connecté CRFs

Le 2 Juin 2016 soumis à Arxiv

https://arxiv.org/abs/1606.00915

La principale contribution:

  • Utilisez la convolution vide;

  • Elle a proposé de réaliser la mise en commun creux en forme de pyramide sur la mise en commun pyramide spatiale Atrous dimension spatiale (PAES);

  • Utilisez un CRFs entièrement connecté.

explication spécifique:

Convolution augmente les vides dans le champ récepteur sans augmenter le nombre de paramètres, conformément à la pratique de la convolution papiers creux mentionnés ci-dessus, le réseau peut être améliorée segmentation.

Nous pluralité d'images d'origine peut être la version redimensionnée de réseau CNN est transmis à la branche parallèle (à savoir, une pyramide d'images), en parallèle ou une pluralité de couches de différents taux d'échantillonnage de convolution creux (PAES), et les deux méthodes traitement multi-échelle peut être réalisée.

Nous pouvons également prédis structuré de manière à réaliser pleinement relié à l'aéroport par les conditions, la nécessité de former les conditions et peaufinage l'aéroport seul comme une étape de post-traitement.

 Enchaînement des opérations réseau DeepLab2

Commentaires score Source 79.7ResNet-101 + convolution vide + PAES + CRF classement

 DeepLab2 les résultats des tests de référence du réseau sur VOC2012

RefineNet

papier:

RefineNet: Multi-Path Raffinement Networks pour haute résolution sémantique Segmentation

Le 20 Novembre 2016 soumis à arXiv

https://arxiv.org/abs/1611.06612

La principale contribution:

  • Codeur avec le module décodeur conçu - structure de décodeur;

  • Tous les composants conçus pour suivre la voie des connexions résiduelles.

explication spécifique:

Utiliser la méthode de convolution vide a aussi quelques défauts, son coût de calcul est relativement élevé, et parce que la nécessité de gérer un grand nombre de spectre caractéristique haute résolution, prendra beaucoup de mémoire, ce problème entravant la prévision haute résolution de la recherche informatique.

Les prédictions DeepLab obtiennent seulement 1/8 de la taille de l'entrée d'origine.

Par conséquent, ce document présente le codeur correspondant - la structure du décodeur, dans lequel le codeur est le module ResNet-101, le décodeur est en mesure d'intégrer un module de fonctions codeur haute résolution et basse résolution caractéristiques précédemment RefineNet RefineNet module.

 Structure de réseau RefineNet

Chaque module contient un RefineNet de résolution inférieure, caractérisé par un échantillonnage de la multi-résolution comprend des composants fusibles, et une composante d'arrière-plan peut être acquis sur la base de l'information d'une taille de pas de 5 x 5 et répète couche groupée .

Ces composants suivent l'idée de la carte d'identité, en utilisant une approche de conception des connexions résiduelles.

 Module RefineNet

Commentaires score Source d'entrée multi-dimensionnelle 84.2CRF + + carte pré-formation COCO

 RefineNet les résultats des tests de référence du réseau sur VOC2012

PSPNet

papier:

Pyramide Scène Réseau Parsing

Le 4 Décembre 2016 soumis à arXiv

https://arxiv.org/abs/1612.01105

La principale contribution:

  • module cellulaire pyramide est proposé au contexte global;

  • Utilisation perte supplémentaire (perte auxiliaire).

explication spécifique:

Classement mondial de la scène est importante car elle donne un indice de diviser la distribution de catégorie. Module de mise en commun pyramide au moyen d'un grand pool de couche centrale pour capturer des informations qui.

papier à convolution et vider comme mentionné ci-dessus, PSPNet également utilisés pour améliorer la structure Resnet convolution vide, et ajoute un module de mise en commun de la pyramide. Le spectre caractéristique du module ResNet reliée à la couche de cellules en parallèle sur la sortie échantillonnée, dans lequel le noyau couvre toute la surface de l'image, et la petite zone semi-régionale.

(Après entrée dans le module pool de pyramide) dans la quatrième étape réseau ResNet, en plus de la perte de la branche principale a ajouté des pertes supplémentaires cette idée dans d'autres études, également connu sous la supervision de niveau intermédiaire (supervision intermédiaire).

 Structure de réseau PSPNet

Commentaires score Source 85.4COCO pré-formation, entrée multi-dimensionnelle, aucune méthode de classement CRF 82,6 COCO aucune méthode de pré-formation, entrée multi-dimensionnelle, aucune méthode de CRF papier PSPNet

 PSPNet les résultats des tests de référence du réseau sur VOC2012

Big noyau

papier:

Les grandes questions du noyau - Améliorer sémantique Segmentation par Global Network Convolutif

Le 8 Mars 2017 soumis à arXiv

https://arxiv.org/abs/1703.02719

La principale contribution:

Un codeur proposé noyau de convolution avec de grandes dimensions - structure de décodeur.

explication spécifique:

L'étude pour améliorer l'effet de la segmentation sémantique par le réseau mondial de convolution.

segmentation d'images de segmentation sémantique non seulement besoin, mais aussi la nécessité d'une classification des cibles de segmentation. Vous ne pouvez pas utiliser des couches entièrement connectées structure divisée, cette étude a révélé que le noyau peut être utilisé à la place de grandes dimensions.

Une autre raison d'utiliser une grande structure de base, en dépit de ResNet et d'autres réseaux ont des sentiments très fort champ profond, la recherche pertinente n'a été trouvée que le réseau a tendance à obtenir des informations dans une zone beaucoup plus petite, et a proposé le concept de champ récepteur efficace .

Grande structure de base de calcul à coût élevé, et a beaucoup de paramètres structurels. Ainsi, k × k convolution de deux distributions peuvent être estimés comme une combinaison de 1 x k + k × 1 et k × 1 × 1 + k a. Ce module de convolution appelé le réseau mondial (Global Convolutif réseau, GCN).

prochaine structure de conversation, la ResNet (sans convolution de vide) constituent une partie de la structure globale du codeur, tandis que les couches de réseau GCN et section de décodage déconvolution. La construction simple utilise également une technique appelée module de précision des limites résiduelles (Limite Raffinement, BR) de.

 Structure de réseau GCN

Commentaires score Source 82.2- 83,6 détaillées dans ce document pour améliorer le processus de formation, ne sont pas décrits en détail ici classements

 réseau GCN sur la base des résultats des tests VOC2012

DeepLab v3

papier:

Rethinking Atrous pour Convolution Segmentation image sémantique

Le 17 Juin 2017 soumis à arXiv

https://arxiv.org/abs/1706.05587

La principale contribution:

  • Procédé de mise en commun de pyramide creuse améliorée (PAES) sur une dimension spatiale;

  • La pluralité de cavités dans la structure du module de convolution en cascade.

explication spécifique:

Comme dans DeepLab réseau v2, convolution vide, l'étude a également pour améliorer le modèle ResNet avec convolution vide / longue et courte convolution.

Le présent document propose également trois façons d'améliorer l'ASPP, le niveau de pixel portant sur les caractéristiques de liaison, une couche de convolution a été ajouté 1 x 1 et trois rapports différents convolution creux de 3 x 3, chaque convolution parallèle aussi après l'addition de l'opération de normalisation de la couche de masse.

module d'extension résiduelle est en fait un module de réseau, mais dans des rapports de génération de convolution creuses de couches différentes. Ce module de convolution et d'articles creux mentionnés dans le contexte de modules similaires, mais appliqués directement sur le spectre caractéristique intermédiaire, plutôt que sur la carte de confiance. modèle de confiance fait référence au nombre de canaux est le nombre de catégorie de haut niveau caractéristique la même carte réseau CNN.

Le document évalue l'indépendance de ces deux modèles proposés, essayer de combiner les deux ensemble n'a pas amélioré les performances réelles. Les deux performances réelles sur l'ensemble de validation des modèles similaires avec la performance de la structure PAES un peu mieux, et non la structure rejoint CRF.

Modèle est meilleure que la performance des deux valeurs optimales modèle DeepLabv2, l'article mentionne également des propriétés améliorées en raison de l'addition de la couche de masse et normalisée en utilisant le procédé de codage d'un fond mieux multiéchelle.

 Structure DeepLabv3 ASPP

Score de 85,7 a été utilisé la structure source d'examen PAES, et non avec un classement de module en cascade

 Référence DeepLabv3 structures PAES sur les résultats des tests VOC2012

Adresse originale:

[Fin]

Un avis

lecteurs Quantum ouverture 5 appliquent un groupe d'amis intéressés par l'intelligence artificielle, vous pouvez ajouter des micro-canaux qbitbot2 qubit Little Helper, une demande d'admission au groupe, discuter avec l'intelligence artificielle.

En outre, un grand café qubit a réuni le groupe de technologie de pilote automatique, Autopilot accepté que la recherche dans des domaines connexes dans les ingénieurs de l'école ou de première ligne . Appliquer: Ajouter qbitbot2 comme un ami, des notes " pilote automatique « Inscrivez-vous ~

recrutement

Qubits recrute Éditeur / journaliste Et d'autres positions, basé à Zhongguancun de Beijing. Détails, le numéro de l'interface de dialogue public, répond: « Le recrutement. »

Xiao Ting Wen dire au revoir Super League! Remise des prix de nouveaux fans plomb chaud de style: pour remuer le fardeau du Guizhou au football
Précédent
Les nouvelles du sud-est de la vérité révélée la liste des consommateurs DX7 année peuvent acheter?
Prochain
Vitesse, peut attaquer, bonne défense, 3 coups « Double King » pour passer à travers la re mettre une fusée!
Alors DOTA joueurs les plus forts, une colère gloire de dix annees couronne pour le pays, et maintenant en jouant Moba Voyage à la main pour vivre
Dalian parti convoqué! U23 est sur le point d'envoyer des soldats fans de Nanjing: la première équipe pourrait aussi bricoler?
À partir des modèles d'explosion faisant la machine à la jante réseau phénoménale rouge Geely ventes Janvier-février a augmenté de 38,5% sur un an
Et un vétéran âgé de 40 ans! roi Singles, le roi de l'histoire de quatre points, le meilleur sixième homme règle!
Cette année-là, 80 peut fixer 80% des jeux, il ne repose pas sur la technologie, mais respirait?
Guoan prendre seulement 1 Fair Play Award, 6 clubs de mauvaises récoltes! Fans: Dalian vient comme un prix
Aujourd'hui, les vacances, les voitures régalait les filles aiment la reine déesse
+20009000 passes, interceptions et plus difficile? Histoire de trois personnes, le service actif seulement pour 1, 2 ou peut faire
La perte de plus d'un million de joueurs en ligne! Jedi pour survivre et enfin la panique! Souffle même pousser deux nouvelles façons
Kui pathétiquement incapable de rentrer chez eux en congé pour récupérer le verre de vin Kara Schuster un peu amer?
Google Cloud Test économique tensorflow: CPU que le GPU pour un meilleur rendement