Kaggle Carvana mod�le d'interpr�tation du championnat de segmentation d'image TernausNet

Lei Feng r�seau par AI Technology Review: Juillet 2017, les Etats-Unis ont utilis� les voitures plate-forme de vente au d�tail Carvana appel� l'image Carvana edit'e masque grand d�fi (Carvana image Masking Challenge) articles de match sur la comp�tition de la plate-forme d'apprentissage machine bien connue Kaggle, attire de nombreux chercheurs dans des domaines connexes de la vision par ordinateur de participer.

l'image d'entr�e (� gauche) et l'image de sortie id�al (� droite)

Carvana veulent fournir des informations compl�tes et transparentes pour les consommateurs d'acheter pour am�liorer l'exp�rience d'achat. La plate-forme de vente de v�hicules voitures d'occasion traditionnelle pour fournir aux consommateurs des images d'affichage ont tendance � �tre vagues, l'absence de normes dans les images automobile souvent pas d'affichage complet des informations compl�tes aux consommateurs. Cela r�duit consid�rablement l'efficacit� des ventes de voitures d'occasion. Pour r�soudre ce probl�me, la conception Carvana un syst�me qui peut �tre tourn� pour montrer 16 photos de la voiture. Cependant, la couleur de r�flexion et le corps et l'arri�re-plan aussi des probl�mes similaires peuvent provoquer une s�rie d'erreur visuelle, ce qui Carvana doivent embaucher un �diteur de photos professionnelles pour modifier les images de voiture. Ceci est sans aucun doute une t�che de temps. Par cons�quent, Carvana espoir que les participants du concours pour concevoir une image peut automatiquement la voiture a sorti de l'algorithme de base pour une future int�gration dans la voiture pour aller au nouvel arri�re-plan.

Le jeu a dur� environ deux mois, a attir� un total de 875 athl�tes de 735 �quipes participantes. Parmi eux, de Vladimir Iglovikov et Alexey Shvets du MIT Lyft avec un travail appel� TernausNet sortir sur le dessus. Apr�s avoir gagn�, ils ont �galement �crit un document pr�sent� ses id�es de jeu et les mod�les utilis�s, Lei Feng r�seau AI Technology Review le contenu principal sont d�crits ci-dessous.

fond

Ces derni�res ann�es, le mat�riel informatique pour le progr�s de calcul intensif a �t� fait, et avec le mat�riel de plus en plus de civils, les chercheurs ont pu traiter avec le mod�le complexe � des millions de param�tres. Ce qui convolution r�seau de neurones (CNN) est un mod�le de classification d'images, reconnaissance d'objets, les t�ches de classification de la sc�ne sont largement utilis�s, et un grand succ�s. Sans exception, a remport� la premi�re place dans le travail concours TernausNet �galement utilis� � partir de composants de r�seau de neurones de CNN. TernausNet est un mod�le d'apprentissage pour la segmentation d'image dense profonde, il est possible selon la demande de l'utilisateur, divisant l'image originale, l'image originale est divis�e en sections avec un sens diff�rent. Pour �viter le probl�me de la segmentation manuelle de l'image du temps classique, pour atteindre l'efficacit�, de haute qualit�, standardis�s exigences de segmentation d'image.

Utiliser les donn�es TernausNet encodeur VGG11 IMAGEnet au moyen d'un pr�-form� pour atteindre le but d'am�liorer la performance du r�seau obtenu U-Net, une excellente t�che de segmentation d'image est termin�e.

architecture de r�seau

U-Net est un codeur - d�codeur structure, au cours du r�seau de propagation vers l'avant, le codeur r�tr�cit progressivement, ce qui r�duit la couche de cellules de dimension spatiale, et un d�codeur se dilate progressivement progressivement d�tails de r�paration et les dimensions spatiales des objets. Il existe g�n�ralement entre le codeur et le d�codeur est saut connect� (connexion sauter), la connexion peut ignorer les caract�ristiques de bas niveau et haut niveau comprend les figures la figure combin�e, le d�codeur peut aider � mieux fixer les d�tails de la cible, au niveau des pixels atteints positionnement. Dans la partie d'�chantillonnage, un grand nombre de canaux peut �tre caract�ris� par la r�solution d'une information de contexte de transmission de couche sup�rieure.

codeur U-Net est un r�seau de neurones � convolution sur la base du format (FCN) la structure du r�seau, la couche de liaison est sur le point de remplacer l'ensemble du r�seau neuronal convolutif (CNN) est une couche de convolution. FCN peut accepter l'image d'entr�e d'une taille quelconque, en utilisant la couche de la figure de d�convolution, dans lequel une derni�re spire de la couche-�chantillonn�, le retourner � la m�me taille de l'image d'entr�e, qui peut avoir eu une pr�diction pour chaque pixel, tandis que conserve l'information spatiale dans l'image d'entr�e d'origine, la classification finale par pixel sur la caract�ristique de la figure �chantillonn�.

Plus pr�cis�ment, la structure du mod�le TernausNet repr�sent� sur la figure 1. Le codeur est d'une taille des cierges du diagramme caract�ristique, l'augmentation du nombre de canaux de la couche de structure de r�seau FCN et le travail de convolution de la couche de cellules en alternance, � l'information de capture sur le contexte, et progressivement � la figure caract�ris� le sous-�chantillonnage; est un d�codeur de codage structure de sym�trie, dans lequel la taille augmente graduellement la figure, ce qui diminue le nombre de canaux, la caract�ristique d'�chantillonnage de la figure r�tablir progressivement un d�tail d'image de haute r�solution. L'U-Net dans lequel pensait figure, le d�codeur peut �tre connect� par l'interm�diaire d'un codeur de saut correspondant �chantillonn�s caract�ristiques de haute d�finition et des d�codeurs pour combiner un pixel de masque de sortie finale par pixel.

. La figure 1. codeur U-NET - d�codeur architecture de r�seau de neurones, le codeur En variante, une seule couche de couches enti�rement connect�es VGG11 r�seau convolutionnel. Apr�s le rectangle bleu repr�sente une �tape de transformation multi-canal dans lequel la Fig. Elle est proportionnelle � la taille du diagramme rectangulaire caract�ristique de hauteur et la largeur est proportionnelle au nombre de canaux. Le nombre de canaux sur le c�t� gauche du codeur progressivement augment�, le nombre de canaux sur le c�t� droit du d�codeur r�duit progressivement. Haut fl�che reliant la gauche et la droite � partir de la repr�sentation cod�e de la couche de migration sur la couche d'information correspondant d�cod�.

TernausNet VGG11 utilis� en tant que codeur de r�seau U-Net. Comme repr�sent� sur la. Figure 2, VGG11 la couche de r�seau 11 compos� de la propagation vers l'avant. Y compris huit convolution couches, la convolution de chaque couche de noyau de convolution en utilisant un 3 * 3, sont suivies d'une fonction d'excitation de la couche RELU apr�s convolution de chaque couche, les volumes 1,2,4,6,8 il a �t� suivi de pr�s par une op�ration de piscine maximum 2 * 2 apr�s stratification, apr�s chaque op�ration dans laquelle une demi-taille figure. Les premiers canaux de la couche de convolution est 64, le nombre de canaux de la seconde couche 128, la quatri�me couche 256 est le num�ro de canal de la troisi�me couche, la cinqui�me couche � la huiti�me couche 512 du nombre de canaux. Aux fins de la segmentation s�mantique, l'encodeur utilise une id�es de conception similaire FCN remplacera les trois derni�res couches VGG11512 � une couche de canal convolutif, il est �galement � goulot d'�tranglement � du codeur et le d�codeur, le U-Net deux portions s�par�es gauche et droite.

Figure 2. architecture r�seau VGG11. Apr�s chaque convolution de la fonction d'activation de la couche figure RELU. Nombre dans chaque case indique le nombre de canaux des caract�ristiques correspondantes de la figure.

Pour construire la couche de d�codeur de permutation convolutionnel, TernausNet deux fois avec la taille de la fonction figure alors que le nombre de canaux est r�duit de moiti�. sortie de convolution de transposition est ensuite reli�e � la sortie du codeur respectif. La figure caract�ristique obtenue par l'op�ration de convolution, en gardant le m�me nombre de canaux correspondant au codeur. L'�tape d'�chantillonnage a �t� r�p�t�e cinq fois pour cinq paires avec les couches de cellules maximale. Comme repr�sent� sur la Fig. 1, il y a cinq puisque les couches maximales piscine de TernausNet, chaque couche des deux images de l'�chantillon, par cons�quent, seul le bord peut �tre 32, � savoir 5 i�me puissance de 2, peuvent �tre utilis�s comme images d'entr�e divisible ce mod�le.

Droit g�n�ralement poids U-Net est initialis� au hasard. La TernausNet plus grande am�lioration par rapport au r�seau conventionnel U-Net: TernausNet r�initialis�e avant que les premi�res couches de U-Net avec le pr�-form� droit IMAGEnet, et l'application de r�glage fin (r�glage fin). En fait, pour les t�ches de segmentation d'images, annotation manuelle d'ensembles de donn�es de segmentation d'images souvent au plus que quelques milliers d'images, de telles donn�es par rapport � la taille de IMAGEnet et d'autres ensembles de donn�es contenant des millions d'images est tr�s faible. Afin d'�viter des probl�mes surajustement, la collecte de donn�es devrait �tre assez grand, cependant, cela apportera temps frais g�n�raux. Afin de r�duire le temps frais g�n�raux et �viter surajustement, les param�tres utilis�s TernausNet poids du r�seau de formation IMAGEnet ensemble de donn�es que le poids pr�-form�.

la formation du mod�le et les r�sultats des tests

Auteur sur ensemble de donn�es d'annotation d'images de l'aviation pour tester la Inria performance de TernausNet. Les auteurs ont utilis� le coefficient Jaccard comme mod�le d'�valuation standard. coefficient de similarit� Jaccar est une mesure de la similitude entre les deux ensembles finis. Compte tenu de deux ensembles A et B, le rapport de la dimension de similitude Jaccard est l'intersection de A et B et l'amplitude de A et B est d�fini et le coefficient ensemble, d�fini comme suit:

Dans la t�che de segmentation d'image, parce que l'image est compos�e de pixels, le probl�me discret, on peut Jaccard similitude coefficient r��crite comme:

Parmi eux,

attribut Cat�gorie est le point de pixel binaire i,

Il est la probabilit� de pixels d�riv�es pr�dit par le mod�le.

Dans ce cas, la segmentation de l'image peut �tre consid�r�e comme un pixel de la classification binaire, fonction de perte crois�e entropie qui peut �tre exprim�e sous la forme:

En d'autres termes, l'ensemble de la fonction de perte de TernausNet peut �tre exprim�e comme suit:

Les r�sultats exp�rimentaux obtenus sur l'appareil d'essai repr�sent� sur la figure 3:

Figure 3. Jaccard mod�le U-Net sous trois coefficient de pond�ration de similarit� des conditions diff�rentes modifications avec r�initialisation du nombre de cas de formation. ligne bleue repr�sente le poids du mod�le droit d'initialisation al�atoire, la ligne orange indique la pr�-formation encodeur IMAGEnet VGG11 initialisation du poids du r�seau mod�le, la ligne verte repr�sente le r�seau dans un ensemble de donn�es de formation de mod�le pr� Carvana.

TernausNet segmentation d'image sur ensemble de donn�es d'image a�rienne INRIA repr�sent� sur la figure 4:

Figure 4. pixel vert repr�sente un groupe de classification de masque binaire (b�timent). Le panneau A montre une image r�elle et superposant le masque initial. Panel B � D de la figure diff�rentes fa�ons d'initialisation et de la formation des r�sultats de pr�diction obtenus apr�s 100. Panneau de droite B l'initialisation d'un r�seau avec des poids al�atoires. le poids du mod�le de d�codeur droite panneau C sont initialis�s de mani�re al�atoire, de sorte que le poids �lev� de l'encodeur sur le poids de r�seau VGG11 IMAGEnet poids pr�-entra�n� initialis�. Figure mod�le D utilis� dans le poids pr��tabli des donn�es Carvana obtenus en poids d'entra�nement.

TernausNet l'auteur est d'avis que l'avenir peut �tre consid�r� comme encodeur pr�-formation plus avanc�e, par exemple: VGG16 ou ResNet, utilis� pour construire un codeur - mod�le de d�codeur.

papier d'origine Adresse: https: //arxiv.org/pdf/1801.05746.pdf, Lei Feng r�seau compil� AI Technology Review

Route de la soie

Apprenez � conna�tre la Chine

Kaggle Carvana mod�le d'interpr�tation du championnat de segmentation d'image TernausNet

fond

architecture de r�seau

la formation du mod�le et les r�sultats des tests