Vous lisez fera! La segmentation d'images (sur) par NVIDIA DIGITS

Qu'est-ce que Digits?

8 juillet NVIDIA camp d'entra�nement de l'acad�mie d'apprentissage en profondeur � la ligne IDD venir � Shenzhen, le th�me est la classification d'images, la base du d�veloppement de la d�tection cible d'entr�e de z�ro et la segmentation d'images.

Bien que les programmes haut de formation AI dans le monde entier, mais IDD entrer en Chine est trop tard, le site chinois a �galement �t� sur la ligne n'a pas fallu longtemps, leader dans le d�veloppement domestique savoir comment la carte graphique NVIDIA, mais ne savent pas NVIDIA a en ligne, la technologie AI en ligne la formation. Lei Feng r�seau a �crit pr�c�demment introduit IDD, les d�tails Poke ici.

Sans plus attendre, le camp d'entra�nement actuel Shenzhen IDD et tensorflow deux principaux outils utilis�s DIGITS. Tensorflow nous le savons tous, vous n'avez pas � pr�senter. Mais Digits tr�s �trange, quel est-il?

Est DIGITS la popularit� de l'�tude approfondie NVIDIA a d�velopp� une interface utilisateur graphique, facile � utiliser, con�u pour aider les d�butants � travers la barri�re � l'entr�e, d�marrer rapidement. Par cons�quent, IDD participants � la formation d'introduction doivent commencer � partir DIGITS.

En clair, DIGITS est un outil novice. Toutefois, en raison de l'IDD vient d'entrer en Chine, des tutoriels et des informations sur DIGITS ne suffit pas pour les d�butants pour amener le manque d'information. Par cons�quent, Lei Feng r�seau de ce tutoriel blog officiel NVIDIA publi� ont �t� compil�s. Les guides tutoriel le lecteur pour la segmentation d'images avec 5 et DIGITS Caffe, qui est n�e de l'IDD laboratoire en ligne (laboratoires en ligne) des cours de formation. Ce dernier charge et en anglais seulement, ne sont pas ouverts aux non-membres. Mais nous comprenons ce tutoriel un ordre de grandeur.

Plus important encore, le 8 Juillet au camp d'entra�nement � Shenzhen ligne IDD sont trois principales classification de l'image de la formation, avec d�tection DIGITS cible et DIGITS segmentation d'images avec tensorflow (pour plus d'informations, cliquez ici). Bien que le contenu des deux premiers jeux de ce tutoriel ne correspond pas, le dernier article de difficult� plus �lev� que beaucoup, mais au lieu d'utiliser un tensorflow Caffe, mais ce tutoriel et la formation des IDD contenus payants est tr�s proche.

Remerciez les trois chaussures pour enfants Zhu Ting, Peng Yanlei et Maxiao Pei compil� cet article demande beaucoup d'efforts.

Tutoriel: segmentation d'images avec 5 DIGITS

Fin de l'ann�e derni�re, NVIDIA a publi� 5 DIGITS, est DIGITS a ajout� de nouvelles fonctionnalit�s, dont deux sont tr�s int�ress�s par ce tutoriel sont:

1. Une segmentation flux de travail enti�rement int�gr�e, la segmentation, il vous permet de cr�er ensemble de donn�es d'image, et envoie le r�sultat de la segmentation de la visualisation du r�seau;

2. magasin de mod�le DIGITS, il est une biblioth�que de ressources en ligne publique, vous pouvez t�l�charger le description du mod�le du r�seau et pr�-formation.

Cet article explore le th�me de la segmentation d'images. Pour ensemble de donn�es d'image composite Synthia dans la voiture, les pi�tons, les panneaux routiers et d'autres villes de l'objet, je vais utiliser 5 DIGITS former le r�seau de neurones pour identifier et localiser.

La figure 1 est un aper�u, voici ce que vous allez apprendre des choses en faisant ce tutoriel:

Figure 1: Exemple d'utilisation pour la segmentation d'image digits 5,0 visualisation. Cette image d'entr�e est alternativement superpos�es sont affich�es, FCN-Alexnet pr�dicteurs superpos�es FCN-Alexnet pr�dit r�sultats avec la r�alit� de terrain.

La segmentation d'images � partir d'une classification d'image

Supposons que vous voulez comprendre un logiciel pour l'image de voiture automatique de conduite de conception. Vous avez peut-�tre entendu parler de Alexnet , GoogLeNet , VGG-16 et autre classification d'images de l'architecture r�seau de neurones, alors vous pourriez commencer par ceux-ci. S'il y a une photo de chiots, la classification d'image, il est de laisser l'ordinateur vous dire que vous �tes un diagramme de processus charg� de Wang.

mod�le de classification de l'image de sortie est une distribution de probabilit� discr�te, des valeurs comprises entre 0,1, est utilis� pour indiquer la probabilit� de chacune des classes de formation. La figure 2 est une utilisation Alexnet dans DIGITS l'image d'un chat de faire un exemple de classification. Le r�sultat est tr�s bon: vous savez Alexnet en 1000 sur le th�me de la formation des diff�rentes cat�gories, y compris les animaux, instruments de musique, des l�gumes, des v�hicules et ainsi de suite. Shocking est que, dans l'intervalle de confiance de 99%, la machine peut �tre correctement class�e comme un th�me d'image de chat. M�me moi, je l'ai, mais je le crains, ne plus distinguer le chat Egypte chat, chat de calicot tabby ou chats.

Figure 2: donn�es d'image de chat Alexnet mis de la classification des COV PASCAL.

Si une image dans le m�me temps il y a des chats et des chiens, nous classons ce qui se passera? Du point de vue de bon sens, vous pourriez croire que le r�seau de neurones lorsque deux de notre classement d'image animal de compagnie pr�f�r�, �tre class� comme la m�me probabilit� de chaque classe. ESSAYONS: le r�sultat est repr�sent� sur la figure 3. Chats et chiens dans la pr�diction a des r�sultats mitig�s, mais n'a pas donn� un 50/50 AlexNet d�sir�. Dans l'image du milieu, la pr�diction des cinq ann�es pr�c�dentes n'a pas en fait un chat. Il est vraiment d�cevant, mais d'autre part, AlexNet est en formation dans le monde, dans ces images est un seul objet � petit � 1,2 millions d'images, de sorte que vous ne pouvez pas assumer les attentes en pr�sence de plusieurs objets sous bien ex�cut�.

Alexnet 3 chats et les chiens de l'ensemble de donn�es d'image de la figure. COV classification PASCAL

Une autre limitation est leur r�seau de classification ne peut pas distinguer la position de l'objet dans l'image. Cela est compr�hensible, parce qu'ils ne sont pas form�s pour le faire pour. N�anmoins, il est un obstacle majeur � la vision par ordinateur: si une voiture auto-conduite ne peut pas d�tecter la position de la route, il ne peut pas aller tr�s loin!

Segmentation d'images r�soudre certains des inconv�nients. Il a pas une seule distribution de probabilit� de pr�diction de l'image enti�re, mais l'image est divis�e en une pluralit� de blocs, chaque bloc de distributions de probabilit�s pr�dites. La situation la plus courante est que l'image est divis�e en niveau de pixels, faire le classement pour chaque pixel: Pour chaque pixel de l'image, le r�seau de formation pour pr�dire les cat�gories pixel sp�cifi�. Cela permet au r�seau peut non seulement identifier chaque image dans plusieurs cat�gories de sujets, peut d�tecter la position de l'objet. G�n�ration d'une segmentation de l'image de l'�tiquette g�n�ralement la m�me taille que l'image d'entr�e de l'image, les pixels en fonction de diff�rents types d'indice de classement � code couleur. La figure 4 est un exemple, divise en quatre cat�gories diff�rentes d'une image: tables, chaises, canap�s et pot.

Figure 4: la segmentation de l'image du jeu de donn�es � titre d'exemple PASCAL COV (zones blanches marqu�s pixels non d�finis, par exemple des objets non classifi�s et les contours d'objets).

Dans un autre raffinement de la segmentation d'image, � savoir, l'exemple de la segmentation de l'image per�ue (AICA), le r�seau de neurones d'apprendre � identifier chaque objet dans un contour de l'image. Ceci est particuli�rement utile dans l'application, il doit �tre en mesure d'identifier chaque cat�gorie d'apparence, m�me pas de fronti�res claires entre les diff�rents types ainsi. Par exemple, sur la figure 5:. La classe moyenne image standard est une segmentation d'image, et l'image est une classe extr�me droite norme IAIS (note comment la couleur cod�e pour identifier de mani�re unique chaque personne). Je ne parlerai pas de sujets de profondeur IAIS, je vais me concentrer sur des exemples de segmentation, mais je vous encourage � regarder le travail Facebook SharpMask sur l'AICA.

Figure 5: segmentation de l'image (en) Exemples VS per�ue segmentation d'image (� droite). PASCAL COV provenant de l'ensemble de donn�es d'image.

Le regard de d�posons sur la fa�on de concevoir un r�seau capables de segmentation d'images.

De CNN � FCN

Fait avant un mod�le de classification d'image et le mod�le de segmentation d'image pour distinguer, l'ancien ne pr�disent une distribution de probabilit� pour chaque image, qui ne pr�voient une distribution de probabilit� pour chaque pixel. En principe, il semble tr�s semblable � ce que vous pourriez penser qu'ils utiliseront la m�me technologie. Apr�s tout, seules les dimensions spatiales du probl�me a �t� augment�. Dans cet article, je vais vous montrer, � seulement quelques petits ajustements seraient suffisants pour classer un r�seau de neurones est divis� en un r�seau de neurones s�mantique. Je vais utiliser dans ce document (ce document) dans le monde de la technologie (j'appelle du papier FCN).

Avant de commencer, commencer par la terminologie: Je qualifierais r�seau typique, par exemple Alexnet appel� r�seau de neurones convolutionnel (CNN). Il est un peu d'abus, apr�s tout, en plus de convolution image classification du r�seau de neurones, il y a beaucoup d'autres utilisations, mais il est une approximation commune.

Le CNN, le r�seau est de pratique courante divis�e en deux parties: la premi�re partie pour faire l'extraction de caract�ristiques, les donn�es sont extraites de plus en plus complexe, des couches abstraites, caract�ris� par une pluralit� de convolution. Habituellement, entre la couche de convolution de la fonction de transfert non lin�aire et la couche de mise en commun. Chaque convolution peut �tre consid�r�e comme une s�rie de filtre d'image des couches, une forte r�ponse qu'ils d�clenchent dans un mode sp�cifique. Par exemple, la Figure 6 montre l'expression d'une premi�re couche de filtre Alexnet de convolution, et l'image virtuelle, comprenant l'activation d'une forme simple sur le r�sultat (sortie) (Fait int�ressant, AlexNet l'image en une horloge murale!) ces filtres d�clench�s en r�ponse � un tel niveau des bords verticaux et horizontaux et les coins de ces formes. Par exemple, regardez le coin inf�rieur gauche du filtre, il ressemble � rayures verticales noires et blanches. Maintenant, regardez les r�sultats et l'activation respective r�ponse �lev�e en une ligne verticale. De m�me, � droite montre une r�ponse de filtre dans le haut hachur�e. Le r�seau sera en mesure de couches plus profondes par exemple convolutionnel d�clencheur du polygone de r�ponse �lev� sur des formes plus complexes, les textures et enfin la d�tection de l'apprentissage et de la composition de divers objets naturels. couche de convolution, est d�livr� en sortie par chacun des filtres de convolution est appliqu�e � chacune de la fen�tre d'entr�e (�galement appel� champ r�cepteur) � partir du calcul, la taille du pas de la couche vers le bas � travers la fen�tre coulissante jusqu'� ce que l'entr�e enti�re . la taille de champ r�cepteur et le m�me filtre. Comme repr�sent� sur la. Figure 7 est un sch�ma d'un exemple de calcul de convolution. Notez que la fen�tre d'entr�e sur tous les canaux de l'image d'entr�e.

Figure 6: performances Alexnet CONV1 l de couche DIGITS. De haut en bas: a la couche de donn�es (entr�e), la couche de filtre visuel CONV1, r�sultat d'activation (sortie) couche CONV1.

Figure 7: A gauche: �chantillon d'entr�e rouge et le premier exemple de la couche de corps des neurones convolution. Chaque neurone couche convolution connect� uniquement � la r�gion locale de l'espace d'entr�e, mais la profondeur de la liaison (� savoir, tous les canaux de couleur). Notez qu'il existe une pluralit� de neurones dans la direction de profondeur (un exemple est 5), qui sont tous connect�s � la r�gion d'entr�e identique; droite: les neurones dot encore son poids calcul� � l'entr�e, la fonction non-lin�aire, mais ils la connexion est maintenant limit�e � l'espace local. Source: cours Stanford University CS231.

Dans la deuxi�me partie, � savoir la derni�re partie de CNN, le classifieur comprenant une pluralit� de couches enti�rement connect�es, une premi�re couche est compl�tement entr�e connect� � partir de l'extracteur de caract�ristique. fonction d'apprentissage interaction complexe de ces couches, de sorte qu'un niveau �lev� de compr�hension du r�seau le contenu de l'image. Par exemple, si vous avez de grands yeux et de la fourrure, le r�seau pourrait �tre enclin aux chats. r�seau de neurones peut comprendre correctement ces caract�ristiques, il est �tonnant dans une certaine mesure, mais il est aussi le charme de la profondeur de l'apprentissage des mensonges. Ce manque de interpr�tabilit� parfois critiqu�, mais � cet �gard, et il fonctionne comme un cerveau humain est en fait un peu: comment savez-vous au sujet d'une image qui est un chat pas un chien, pouvez-vous l'expliquer?

r�seau de convolution compl�te (FCN), son nom l'indique, est d'inclure uniquement la couche de convolution non-param�trique et la couche temporaire mentionn�e ci-dessus. Comment �liminer la couche enti�rement connect� pour cr�er un look mod�le plus puissant il? Pour r�pondre � cette question, nous devons penser � un autre probl�me.

Figure 8: Alexnet affich�e dans le premier plein DIGITS couche de liaison (fcn6) Poids d'entr�e et la fonction d'activation.

La question cl� est: Quelle est la diff�rence entre la couche pleine de liaison et une couche compl�te convolution est-il?

Il est tr�s simple, la couche de liaison ensemble, chaque donn�e d'entr�e pond�r� de sortie de neurone et le calcul. En revanche, chacune des donn�es de calcul de filtre de pond�ration sentir et Nonaka. Attendez, est-il pas la m�me chose? - Oui mais cela ne se produit que dans la m�me taille de la couche d'entr�e et la taille du champ r�ceptif. Si le rapport d'entr�e des grands champs r�cepteurs, qui coulisse couche suivante de la fen�tre d'entr�e de convolution, un autre calcul d'une somme pond�r�e. Ce processus est r�p�t� jusqu'� ce que l'image d'entr�e est de gauche � droite et de haut en bas � nouveau balayage. Enfin, chaque filtre g�n�re une matrice d'activation, chaque matrice est appel�e une carte de fonction.

Ceci permet d'obtenir un indice: couche de connexion de remplacement en utilisant une couche de convolution plein �quivalent, la m�me taille que la taille de la couche filtrante � la couche d'entr�e sont connect�es en utilisant le m�me nombre entier de neurones et filtre. Je vais montrer un enti�rement connect� sur la premi�re couche de Alexnet (fcn6) qui suit: Comme repr�sent� sur la figure 8 est une couche d'int�r�t chiffres visualisation.. Vous pouvez voir entr�e fcn6 de int�rieure5, la forme de l'image d'entr�e est de 2566x6. En outre, des r�sultats d'activation en 4096 est fcn6 longue dimension de la matrice, ce qui signifie fcn64096 neurones de sortie. Ainsi, si je veux remplacer la couche fcn6 avec l'�quivalent de convolution, je dois d�finir la taille du filtre est de 6 * 6, le nombre de carte caract�ristique de sortie pour 4096. Une petite digression pour dire, pensez-vous que cette couche combien de param�tres peuvent �tre form�s l�-bas? Pour chaque filtre, il est un terme de polarisation plus un poids de chaque valeur dans le domaine de la sensation de lourdeur. La profondeur du champ r�cepteur 256, une taille de 6 * 6, chaque filtre a 256x6x6 + 1 = 9217 param�tres. Parce qu'il ya filtre 4096, un total de 37.752.832 des param�tres de la couche. Ceci est le nombre de param�tres dans DIGITS fcn6 ont. Jusqu'� pr�sent, tout va bien.

Dans la pratique, il est facile de remplacer la couche. Si vous utilisez Caffe, pour remplacer la d�finition de la gauche avec la droite d�finie dans le tableau 1.

Avec cette connaissance, vous pouvez maintenant commencer � toutes les couches enti�rement connect�es de Alexnet converties � la couche convolution correspondante. Notez que, vous n'avez pas besoin d'utiliser la forme calcul�e de l'entr�e Digits ces couches, vous pouvez les calculer manuellement. Bien que cela semble int�ressant, je suis s�r que si vous �tes 16 couches VGG-16 (avec la couche interm�diaire de la piscine) pour ce faire, vous perdrez la patience. Sans oublier que vous allez in�vitablement perdre votre papier calcul. De plus, comme un passionn� d'apprentissage profond, vous devez vous habituer � laisser la machine faire le travail. Alors laissez le travail DIGITS pour vous maintenant.

Et le FCN CNN de base r�sultant peut avoir le m�me nombre de param�tres d'apprentissage, et la m�me capacit� � exprimer la m�me complexit� de calcul. Compte tenu de la m�me entr�e, la m�me sortie est g�n�r�. Vous pourriez penser: Pourquoi voulez-vous convertir le mod�le tant de peine? Est-ce, CNN fondation introduit � de convolution � trop de flexibilit�. Mod�le est plus limit�e par la (taille de pixel dans Alexnet 224 * 224) agit sur une entr�e de taille fixe. Elle peut �tre la m�me que la fen�tre coulissante, pour traiter une image d'entr�e plus grande obtenue par balayage de l'ensemble, et non pas pour produire une distribution de probabilit� de l'entr�e enti�re, mais pour chaque fen�tre 224 * 224, le mod�le produit une probabilit�. r�seau de sortie est un tenseur KxHxW de forme, o�, K repr�sente le nombre de cat�gories, H repr�sente le nombre de fen�tre coulissante selon l'axe longitudinal, W repr�sente le nombre de fen�tre coulissante selon l'axe horizontal.

Sur le plan de l'efficacit� de calcul: th�orie, vous pouvez bloquer en s�lectionnant de fa�on r�p�t�e une image afin d'obtenir une fen�tre simple coulissement, puis les entr�es de bloc de traitement CNN. Dans la pratique, il est tr�s inefficace dans le calcul: Lorsque vous fen�tre coulissante progressivement, pour voir une petite quantit� de nouvelle valeur de pixel � chaque �tape. Cependant, chaque bloc doit �tre trait�e compl�tement par le CNN, m�me s'il existe un chevauchement important entre les blocs successifs. Chaque valeur de pixel de l'accord final sera r�p�t� plusieurs fois. Dans FCN, parce que ces calculs se sont produits dans le r�seau interne, avec un nombre minimum d'op�rations requises pour effectuer toute la vitesse de traitement est beaucoup plus rapide.

Dans l'ensemble, c'est une �tape importante: deux dimensions spatiales augmentation de la production de la classification du r�seau. Dans la section suivante, je vais montrer comment am�liorer encore le mod�le.

(A suivre)

via nvidia, Lei Feng r�seau compil�

Route de la soie

Apprenez � conna�tre la Chine

Vous lisez fera! La segmentation d'images (sur) par NVIDIA DIGITS

Qu'est-ce que Digits?

Tutoriel: segmentation d'images avec 5 DIGITS

La segmentation d'images � partir d'une classification d'image

De CNN � FCN