Wang r�cemment compil� � partir de Blog Qure.ai

Qubit produit | Num�ro public QbitAI

segmentation de l'image est la segmentation automatique de la machine � partir d'une zone cible de l'image, et l'identification du contenu dans celle-ci.

Qubit recommand� aujourd'hui cet article examine l'�tude en profondeur de segmentation d'images s�mantique dans le processus de d�veloppement.

Publier cet article Qure.ai, est une entreprise avec l'apprentissage en profondeur pour lire la soci�t� d'imagerie m�dicale, ils trier la profondeur de l'apprentissage segmentation s�mantique sur le blog officiel.

Ils esp�rent que, gr�ce � cette introduction, que chacun sache c'est arriv� � maturit� relativement dans le traitement de l'image naturelle, mais les technologies �mergentes dans le d�veloppement des images m�dicales ont encore besoin.

Auteur Sasank Chilamkurthy trois parties recherche de segmentation introduit s�mantique:

R�sum� des solutions connexes, la recherche du concept de segmentation s�mantique.

Les �l�ments suivants compil�es � partir Qure.ai blog officiel:

Qu'est-ce que la segmentation s�mantique est?

Segmentation s�mantique de l'image en cours de traitement, en particulier au niveau des pixels, qui est, le proc�d� pourrait attribuer � chaque pixel de l'image � une classe d'objets. Ce qui suit est un cas sp�cifique.

�A gauche de l'image d'entr�e, l'image de droite � travers la sortie de la segmentation s�mantique.

Ce mod�le non seulement d'identifier la moto et le conducteur, mais aussi pour marquer les limites de chaque objet. Ainsi, diff�rentes fins de classification, les mod�les concern�s d'avoir un pouvoir pr�dictif intensif au niveau pixel.

Actuellement, deux �tudes de segmentation s�mantique pour le plus important ensemble de donn�es est VOC2012 et MSCOCO .

VOC2012:

MSCOCO:

Quels sont les moyens?

Avant d'apprendre la profondeur de l'application de la m�thode champ de vision informatique, les chercheurs ont g�n�ralement �tre construits pour une utilisation classificateur segmentation s�mantique texton for�t (TextonForest) ou For�t Al�atoire (Random Forest).

r�seau de neurones convolutionnel (CNN), non seulement pour obtenir une classification bonne image et la segmentation en question a fait de grands progr�s.

Dans un premier temps, classement de bloc d'image Est une m�thode couramment utilis�e pour l'apprentissage en profondeur, � savoir par l'image autour de chaque blocs de pixels, chacun correspondant � chaque pixel est divis� en cat�gories. Dans lequel, en utilisant des blocs d'image est une couche de r�seau principalement classifi�es ayant typiquement un enti�rement connect�, l'image d'entr�e doit �tre un des blocs de taille fixe.

2014, Long et al., Universit� de Californie, Berkeley propos� convolution compl�te du r�seau (Fully Convolutif Networks) Promouvoir la structure d'origine CNN, Sans avoir la couche compl�te de connectivit� peut �tre dense pr�diction.

La structure propos�e est telle que les cartes de segmentation d'images peuvent �tre g�n�r�es de toute taille, et est compar�e � la classification des blocs d'image, mais aussi d'am�liorer la vitesse de traitement. Plus tard, presque toutes les derni�res recherches sur la segmentation s�mantique ont adopt� cette structure.

Un autre probl�me avec la couche de connexion en plus de la structure, est difficile � utiliser dans le probl�me de partitionnement de r�seau CNN est la couche en gestion commune est pr�sente. Piscine de la couche sup�rieure peut non seulement augmenter le champ r�cepteur de la convolution, mais aussi l'arri�re-plan tout en rejetant les informations de position de polym�risation en partie. Cependant, les besoins de la m�thode de segmentation s�mantique � des classes de motifs ajust�s avec pr�cision, et doivent donc conserver les informations de position dans la couche cellulaire mis au rebut.

Les chercheurs ont propos� deux formes diff�rentes de la structure pour r�soudre ce probl�me.

La premi�re m�thode consiste � coder - structure de d�codeur (codeur-d�codeur). Dans lequel le codeur utilise un conicit�s de la couche cellulaire dimension spatiale des donn�es d'entr�e, et le d�codeur � r�tablir progressivement les d�tails de la cible et les dimensions spatiales correspondant par la couche de d�convolution, la couche de r�seau, et analogues. Entre du codeur au d�codeur, g�n�ralement il y a une information de connexion directe pour aider le d�codeur mieux les d�tails de cibles de r�cup�ration. Dans cette m�thode, une structure de r�seau typique du U-Net.

�Un codeur typique - structure de d�codeur U-Net

La deuxi�me m�thode utilise une structure appel�e une convolution creuse, et en plus de la structure de la couche de cellules.

�convolution creux, lorsque le rapport est �gal � 1, est la structure de convolution classique.

Champs conditionnel al�atoire (Random Field conditionnel, CRF) dans le processus de segmentation g�n�ralement pour am�liorer le post-traitement. Le CRF est une m�thode bas�e sur l'intensit� des pixels de l'image sous-jacente de � lissage � mod�le de la figure divis�, � une intensit� de pixel d'ex�cution sera similaire au point marqu� de la m�me classe. Sous condition al�atoire Les champs peuvent �tre ajout�s pour am�liorer la m�thode des scores finaux de 1 � 2%.

�L'effet du d�veloppement de la m�thode CRF. b sera class�e comme une dimension figure CRF divis�e m�thode d'entr�e, trois types de c, d, e image montre une variante m�thode CRF, CRF une sorte de structure e la photo largement utilis�.

Ensuite, nous allons trier des papiers repr�sentatifs, d'introduire une structure de s�paration � partir de l'�volution du r�seau FCN.

Ces structures sont utilis�es pour les donn�es de test mis en VOC2012 effet pratique.

Des recherches int�ressantes

Ensuite, nous suivrons l'ordre des articles publi�s pour pr�senter les documents suivants:

1. r�seau FCN;

2. r�seau SegNet;

3. convolution creux (dilat�e Convolutions);

4. DeepLab (V1 et V2);

5. RefineNet;

6. PSPNet;

7. Big noyau (grandes questions du noyau);

8. DeepLab v3;

Pour chaque papier ci-dessus, sera indiqu� s�par�ment ci-apr�s et a expliqu� la principale contribution, les r�sultats des tests ont �galement affich� de ces structures concentr�es dans les donn�es VOC2012 IOU.

FCN

papier:

R�seaux enti�rement pour convolutifs s�mantique Segmentation

Le 14 Novembre 2014 soumis au Arvix

https://arxiv.org/abs/1411.4038

La principale contribution:

La fin de convolution r�seau s�mantique �tendue de segmentation;
r�seau IMAGEnet une nouvelle formation pour le probl�me de pr�-partitionnement;
En utilisant la couche de d�convolution sur les �chantillons;
Il a propos� d'am�liorer la rugosit� de la connexion de saut �chantillonn�.

explication sp�cifique:

L'essentiel est que l'article: Classification couche r�seau enti�rement connect� peut �tre consid�r�e comme une op�ration de convolution en utilisant un noyau de convolution pour traverser la r�gion d'entr�e enti�re.

Ceci correspond au r�seau de l'�valuation du classement initial superpos� sur le bloc d'image d'entr�e, mais un rendement plus �lev� par rapport � pr�c�demment calcul�e, car les blocs d'image dans la zone de chevauchement, pour partager les r�sultats.

Bien que cette m�thode n'est pas unique � cet article, ainsi qu'un article sur overfeat �galement utiliser cette id�e, mais il ne s'am�liore de mani�re significative l'effet pratique sur le jeu de donn�es VOC2012.

�Structure de la couche de convolution r�alis�e enti�rement connect�

Apr�s que le mod�le de r�seau connect� couche enti�rement pr�-form� comme la convolution de VGG, �tant donn� que la cellule CNN de l'op�ration du r�seau, obtenue par �chantillonnage des restes de fr�quences caract�ristiques.

Lorsque d�convolution est r�alis�e sur la couche d'�chantillon, au lieu d'utiliser simple interpolation bilin�aire, mais le fonctionnement d'interpolation par l'apprentissage r�alis�. Il est �galement appel� la couche r�seau alambiqu� convolution compl�te, convolution ou convolution de fractale Transpose.

Toutefois, �tant donn� qu'une partie de l'information perdue dans l'op�ration de mise en commun, de sorte que m�me avec l'op�ration couche de d�convolution sur�chantillonnage g�n�re carte de segmentation grossi�re. Par cons�quent, il a �galement introduit le saut de la connexion des caract�ristiques du spectre � haute r�solution.

Commentaires score Source 62,267,2 classement a pas augment� le classement de l'�lan de l'�lan (Description non d'origine)

�r�seau FCN sur la base des r�sultats des tests VOC2012

Commentaire personnel:

contribution � la recherche de cet article est tr�s important, mais les derni�res recherches a permis d'am�liorer ce r�sultat dans une large mesure.

SegNet

papier:

SegNet: Une profonde Convolutif COdeurDECodeur architecture pour l'image Segmentation

Le 2 Novembre soumis � Arvix ici � 2015

https://arxiv.org/abs/1511.00561

La principale contribution:

Indice maximale du pool est transf�r� au d�codeur, la meilleure r�solution de la division.

explication sp�cifique:

FCN dans le r�seau, entra�nant une carte de segmentation grossi�re par la convolution de la couche de connexion et le nombre de sauts, afin d'am�liorer l'effet des sauts introduit plus de connexions.

Cependant, seule la fonction de copie de l'encodeur r�seau FCN pour copier le r�seau Segnet indice maximum de la piscine. Cela rend l'utilisation de la m�moire, SegNet plus efficace que FCN.

�Structure de r�seau SegNet

Pas de commentaires 59,9 classements score Source

�SegNet sur les r�sultats des tests de r�f�rence VOC2012

Commentaire personnel:

les r�seaux et les r�seaux sont FCN SegNet appara�t en premier codeur - structure de d�codeur, mais le r�seau de la valeur de r�f�rence SegNet ne peut pas r�pondre � la demande pour une utilisation pratique.

convolution vide

papier:

Contexte multi-�chelles d'agr�gation par Dilated Convolutions

Le 23 Novembre ici � 2015 soumis au Arvix

https://arxiv.org/abs/1511.07122

La principale contribution:

En utilisant une convolution creuse, qui est une convolution peut �tre utilis�e pour pr�dire la couche dense;
Nous vous proposons l'utilisation de convolution creux dans un �tat d'agr�gation multi-�chelle � module arri�re-plan. �

explication sp�cifique:

op�ration piscine augmente le champ r�cepteur, contribuent au r�seau de classification. Cependant, la division cellulaire dans le processus de fonctionnement est �galement r�duit la r�solution.

Par cons�quent, la couche de convolution vide du papier, il est propos� que ces travaux:

�Vide convolution sch�matique

couche de cavit� convolution sans d�grader la dimension spatiale correspondante champ r�cepteur augmente l'indice.

Dans la prochaine DeepLab mentionn�, la circonvolution creuse poreuse est appel�e convolution (de convolution Atrous).

Pour retirer les deux couches de cellules finales du r�seau de classificateur pr�-form� (VGG se r�f�re ici � un r�seau), et une couche de convolution suivante substitu� convolution creux.

En particulier, l'op�ration de convolution entre la couche de mise en commun 3 et la couche 4 de la couche de la cellule 2 est creux convolution, l'op�ration de convolution apr�s la couche de cellules 4 est une couche de convolution creux 4.

Mod�le de base (module frontend) propos� dans cet article peut �tre obtenu des r�sultats de pr�diction dans un dense sans augmenter le nombre de param�tres.

ARRIERE-PLAN article mentionn� module de formation individuel Module frontal de sortie, en tant que mod�le d'entr�e. Ce module est l'obtention d'une hi�rarchie de convolution creux avec diff�rents degr�s d'expansion, de sorte que l'agr�gation et l'am�lioration de la pr�diction d'arri�re-plan du module d'extr�mit� avant multi-�chelle.

Commentaires sources score fin avant de 71,3 convolution fond de papier vide au-dessus 74,7 + 73,5 frontal frontal fond + 75,3 + CRF au-dessus du fond avant + + CRF - RNN Ibid.

�Circonvolution les r�sultats des tests de r�f�rence vide sur VOC2012

Commentaire personnel:

Il convient de noter que la taille pr�dite par le mod�le divis� la taille de l'image originale est la figure 1/8. Ceci est presque toutes les m�thodes ont des probl�mes, la segmentation finale obtenue par la m�thode d'interpolation de la figure.

DeepLab (V1 et V2)

Th�se 1:

Segmentation de l'image s�mantique avec Deep Convolutif Nets et enti�rement connect� CRFs

Le 22 D�cembre 2014 soumis au Arvix

https://arxiv.org/abs/1412.7062

Document 2:

DeepLab: Image s�mantique Segmentation Deep Convolutif Nets, Atrous Convolution, et enti�rement connect� CRFs

Le 2 Juin 2016 soumis � Arxiv

https://arxiv.org/abs/1606.00915

La principale contribution:

Utilisez la convolution vide;
Elle a propos� de r�aliser la mise en commun creux en forme de pyramide sur la mise en commun pyramide spatiale Atrous dimension spatiale (PAES);
Utilisez un CRFs enti�rement connect�.

explication sp�cifique:

Convolution augmente les vides dans le champ r�cepteur sans augmenter le nombre de param�tres, conform�ment � la pratique de la convolution papiers creux mentionn�s ci-dessus, le r�seau peut �tre am�lior�e segmentation.

Nous pluralit� d'images d'origine peut �tre la version redimensionn�e de r�seau CNN est transmis � la branche parall�le (� savoir, une pyramide d'images), en parall�le ou une pluralit� de couches de diff�rents taux d'�chantillonnage de convolution creux (PAES), et les deux m�thodes traitement multi-�chelle peut �tre r�alis�e.

Nous pouvons �galement pr�dis structur� de mani�re � r�aliser pleinement reli� � l'a�roport par les conditions, la n�cessit� de former les conditions et peaufinage l'a�roport seul comme une �tape de post-traitement.

�Encha�nement des op�rations r�seau DeepLab2

Commentaires score Source 79.7ResNet-101 + convolution vide + PAES + CRF classement

�DeepLab2 les r�sultats des tests de r�f�rence du r�seau sur VOC2012

RefineNet

papier:

RefineNet: Multi-Path Raffinement Networks pour haute r�solution s�mantique Segmentation

Le 20 Novembre 2016 soumis � arXiv

https://arxiv.org/abs/1611.06612

La principale contribution:

Codeur avec le module d�codeur con�u - structure de d�codeur;
Tous les composants con�us pour suivre la voie des connexions r�siduelles.

explication sp�cifique:

Utiliser la m�thode de convolution vide a aussi quelques d�fauts, son co�t de calcul est relativement �lev�, et parce que la n�cessit� de g�rer un grand nombre de spectre caract�ristique haute r�solution, prendra beaucoup de m�moire, ce probl�me entravant la pr�vision haute r�solution de la recherche informatique.

Les pr�dictions DeepLab obtiennent seulement 1/8 de la taille de l'entr�e d'origine.

Par cons�quent, ce document pr�sente le codeur correspondant - la structure du d�codeur, dans lequel le codeur est le module ResNet-101, le d�codeur est en mesure d'int�grer un module de fonctions codeur haute r�solution et basse r�solution caract�ristiques pr�c�demment RefineNet RefineNet module.

�Structure de r�seau RefineNet

Chaque module contient un RefineNet de r�solution inf�rieure, caract�ris� par un �chantillonnage de la multi-r�solution comprend des composants fusibles, et une composante d'arri�re-plan peut �tre acquis sur la base de l'information d'une taille de pas de 5 x 5 et r�p�te couche group�e .

Ces composants suivent l'id�e de la carte d'identit�, en utilisant une approche de conception des connexions r�siduelles.

�Module RefineNet

Commentaires score Source d'entr�e multi-dimensionnelle 84.2CRF + + carte pr�-formation COCO

�RefineNet les r�sultats des tests de r�f�rence du r�seau sur VOC2012

PSPNet

papier:

Pyramide Sc�ne R�seau Parsing

Le 4 D�cembre 2016 soumis � arXiv

https://arxiv.org/abs/1612.01105

La principale contribution:

module cellulaire pyramide est propos� au contexte global;
Utilisation perte suppl�mentaire (perte auxiliaire).

explication sp�cifique:

Classement mondial de la sc�ne est importante car elle donne un indice de diviser la distribution de cat�gorie. Module de mise en commun pyramide au moyen d'un grand pool de couche centrale pour capturer des informations qui.

papier � convolution et vider comme mentionn� ci-dessus, PSPNet �galement utilis�s pour am�liorer la structure Resnet convolution vide, et ajoute un module de mise en commun de la pyramide. Le spectre caract�ristique du module ResNet reli�e � la couche de cellules en parall�le sur la sortie �chantillonn�e, dans lequel le noyau couvre toute la surface de l'image, et la petite zone semi-r�gionale.

(Apr�s entr�e dans le module pool de pyramide) dans la quatri�me �tape r�seau ResNet, en plus de la perte de la branche principale a ajout� des pertes suppl�mentaires cette id�e dans d'autres �tudes, �galement connu sous la supervision de niveau interm�diaire (supervision interm�diaire).

�Structure de r�seau PSPNet

Commentaires score Source 85.4COCO pr�-formation, entr�e multi-dimensionnelle, aucune m�thode de classement CRF 82,6 COCO aucune m�thode de pr�-formation, entr�e multi-dimensionnelle, aucune m�thode de CRF papier PSPNet

�PSPNet les r�sultats des tests de r�f�rence du r�seau sur VOC2012

Big noyau

papier:

Les grandes questions du noyau - Am�liorer s�mantique Segmentation par Global Network Convolutif

Le 8 Mars 2017 soumis � arXiv

https://arxiv.org/abs/1703.02719

La principale contribution:

Un codeur propos� noyau de convolution avec de grandes dimensions - structure de d�codeur.

explication sp�cifique:

L'�tude pour am�liorer l'effet de la segmentation s�mantique par le r�seau mondial de convolution.

segmentation d'images de segmentation s�mantique non seulement besoin, mais aussi la n�cessit� d'une classification des cibles de segmentation. Vous ne pouvez pas utiliser des couches enti�rement connect�es structure divis�e, cette �tude a r�v�l� que le noyau peut �tre utilis� � la place de grandes dimensions.

Une autre raison d'utiliser une grande structure de base, en d�pit de ResNet et d'autres r�seaux ont des sentiments tr�s fort champ profond, la recherche pertinente n'a �t� trouv�e que le r�seau a tendance � obtenir des informations dans une zone beaucoup plus petite, et a propos� le concept de champ r�cepteur efficace .

Grande structure de base de calcul � co�t �lev�, et a beaucoup de param�tres structurels. Ainsi, k � k convolution de deux distributions peuvent �tre estim�s comme une combinaison de 1 x k + k � 1 et k � 1 � 1 + k a. Ce module de convolution appel� le r�seau mondial (Global Convolutif r�seau, GCN).

prochaine structure de conversation, la ResNet (sans convolution de vide) constituent une partie de la structure globale du codeur, tandis que les couches de r�seau GCN et section de d�codage d�convolution. La construction simple utilise �galement une technique appel�e module de pr�cision des limites r�siduelles (Limite Raffinement, BR) de.

�Structure de r�seau GCN

Commentaires score Source 82.2- 83,6 d�taill�es dans ce document pour am�liorer le processus de formation, ne sont pas d�crits en d�tail ici classements

�r�seau GCN sur la base des r�sultats des tests VOC2012

DeepLab v3

papier:

Rethinking Atrous pour Convolution Segmentation image s�mantique

Le 17 Juin 2017 soumis � arXiv

https://arxiv.org/abs/1706.05587

La principale contribution:

Proc�d� de mise en commun de pyramide creuse am�lior�e (PAES) sur une dimension spatiale;
La pluralit� de cavit�s dans la structure du module de convolution en cascade.

explication sp�cifique:

Comme dans DeepLab r�seau v2, convolution vide, l'�tude a �galement pour am�liorer le mod�le ResNet avec convolution vide / longue et courte convolution.

Le pr�sent document propose �galement trois fa�ons d'am�liorer l'ASPP, le niveau de pixel portant sur les caract�ristiques de liaison, une couche de convolution a �t� ajout� 1 x 1 et trois rapports diff�rents convolution creux de 3 x 3, chaque convolution parall�le aussi apr�s l'addition de l'op�ration de normalisation de la couche de masse.

module d'extension r�siduelle est en fait un module de r�seau, mais dans des rapports de g�n�ration de convolution creuses de couches diff�rentes. Ce module de convolution et d'articles creux mentionn�s dans le contexte de modules similaires, mais appliqu�s directement sur le spectre caract�ristique interm�diaire, plut�t que sur la carte de confiance. mod�le de confiance fait r�f�rence au nombre de canaux est le nombre de cat�gorie de haut niveau caract�ristique la m�me carte r�seau CNN.

Le document �value l'ind�pendance de ces deux mod�les propos�s, essayer de combiner les deux ensemble n'a pas am�lior� les performances r�elles. Les deux performances r�elles sur l'ensemble de validation des mod�les similaires avec la performance de la structure PAES un peu mieux, et non la structure rejoint CRF.

Mod�le est meilleure que la performance des deux valeurs optimales mod�le DeepLabv2, l'article mentionne �galement des propri�t�s am�lior�es en raison de l'addition de la couche de masse et normalis�e en utilisant le proc�d� de codage d'un fond mieux multi�chelle.

�Structure DeepLabv3 ASPP

Score de 85,7 a �t� utilis� la structure source d'examen PAES, et non avec un classement de module en cascade

�R�f�rence DeepLabv3 structures PAES sur les r�sultats des tests VOC2012

Adresse originale:

[Fin]

Un avis

lecteurs Quantum ouverture 5 appliquent un groupe d'amis int�ress�s par l'intelligence artificielle, vous pouvez ajouter des micro-canaux qbitbot2 qubit Little Helper, une demande d'admission au groupe, discuter avec l'intelligence artificielle.

En outre, un grand caf� qubit a r�uni le groupe de technologie de pilote automatique, Autopilot accept� que la recherche dans des domaines connexes dans les ing�nieurs de l'�cole ou de premi�re ligne . Appliquer: Ajouter qbitbot2 comme un ami, des notes " pilote automatique � Inscrivez-vous ~

recrutement

Qubits recrute �diteur / journaliste Et d'autres positions, bas� � Zhongguancun de Beijing. D�tails, le num�ro de l'interface de dialogue public, r�pond: � Le recrutement. �

Route de la soie

Apprenez � conna�tre la Chine

l'apprentissage en profondeur toute solution de segmentation s�mantique: de FCN, SegNet � chaque version DeepLab

Qu'est-ce que la segmentation s�mantique est?

Quels sont les moyens?

Des recherches int�ressantes

RefineNet