Kaggle Carvana modèle d'interprétation du championnat de segmentation d'image TernausNet

Lei Feng réseau par AI Technology Review: Juillet 2017, les Etats-Unis ont utilisé les voitures plate-forme de vente au détail Carvana appelé l'image Carvana edit'e masque grand défi (Carvana image Masking Challenge) articles de match sur la compétition de la plate-forme d'apprentissage machine bien connue Kaggle, attire de nombreux chercheurs dans des domaines connexes de la vision par ordinateur de participer.

l'image d'entrée (à gauche) et l'image de sortie idéal (à droite)

Carvana veulent fournir des informations complètes et transparentes pour les consommateurs d'acheter pour améliorer l'expérience d'achat. La plate-forme de vente de véhicules voitures d'occasion traditionnelle pour fournir aux consommateurs des images d'affichage ont tendance à être vagues, l'absence de normes dans les images automobile souvent pas d'affichage complet des informations complètes aux consommateurs. Cela réduit considérablement l'efficacité des ventes de voitures d'occasion. Pour résoudre ce problème, la conception Carvana un système qui peut être tourné pour montrer 16 photos de la voiture. Cependant, la couleur de réflexion et le corps et l'arrière-plan aussi des problèmes similaires peuvent provoquer une série d'erreur visuelle, ce qui Carvana doivent embaucher un éditeur de photos professionnelles pour modifier les images de voiture. Ceci est sans aucun doute une tâche de temps. Par conséquent, Carvana espoir que les participants du concours pour concevoir une image peut automatiquement la voiture a sorti de l'algorithme de base pour une future intégration dans la voiture pour aller au nouvel arrière-plan.

Le jeu a duré environ deux mois, a attiré un total de 875 athlètes de 735 équipes participantes. Parmi eux, de Vladimir Iglovikov et Alexey Shvets du MIT Lyft avec un travail appelé TernausNet sortir sur le dessus. Après avoir gagné, ils ont également écrit un document présenté ses idées de jeu et les modèles utilisés, Lei Feng réseau AI Technology Review le contenu principal sont décrits ci-dessous.

fond

Ces dernières années, le matériel informatique pour le progrès de calcul intensif a été fait, et avec le matériel de plus en plus de civils, les chercheurs ont pu traiter avec le modèle complexe à des millions de paramètres. Ce qui convolution réseau de neurones (CNN) est un modèle de classification d'images, reconnaissance d'objets, les tâches de classification de la scène sont largement utilisés, et un grand succès. Sans exception, a remporté la première place dans le travail concours TernausNet également utilisé à partir de composants de réseau de neurones de CNN. TernausNet est un modèle d'apprentissage pour la segmentation d'image dense profonde, il est possible selon la demande de l'utilisateur, divisant l'image originale, l'image originale est divisée en sections avec un sens différent. Pour éviter le problème de la segmentation manuelle de l'image du temps classique, pour atteindre l'efficacité, de haute qualité, standardisés exigences de segmentation d'image.

Utiliser les données TernausNet encodeur VGG11 IMAGEnet au moyen d'un pré-formé pour atteindre le but d'améliorer la performance du réseau obtenu U-Net, une excellente tâche de segmentation d'image est terminée.

architecture de réseau

U-Net est un codeur - décodeur structure, au cours du réseau de propagation vers l'avant, le codeur rétrécit progressivement, ce qui réduit la couche de cellules de dimension spatiale, et un décodeur se dilate progressivement progressivement détails de réparation et les dimensions spatiales des objets. Il existe généralement entre le codeur et le décodeur est saut connecté (connexion sauter), la connexion peut ignorer les caractéristiques de bas niveau et haut niveau comprend les figures la figure combinée, le décodeur peut aider à mieux fixer les détails de la cible, au niveau des pixels atteints positionnement. Dans la partie d'échantillonnage, un grand nombre de canaux peut être caractérisé par la résolution d'une information de contexte de transmission de couche supérieure.

codeur U-Net est un réseau de neurones à convolution sur la base du format (FCN) la structure du réseau, la couche de liaison est sur le point de remplacer l'ensemble du réseau neuronal convolutif (CNN) est une couche de convolution. FCN peut accepter l'image d'entrée d'une taille quelconque, en utilisant la couche de la figure de déconvolution, dans lequel une dernière spire de la couche-échantillonné, le retourner à la même taille de l'image d'entrée, qui peut avoir eu une prédiction pour chaque pixel, tandis que conserve l'information spatiale dans l'image d'entrée d'origine, la classification finale par pixel sur la caractéristique de la figure échantillonné.

Plus précisément, la structure du modèle TernausNet représenté sur la figure 1. Le codeur est d'une taille des cierges du diagramme caractéristique, l'augmentation du nombre de canaux de la couche de structure de réseau FCN et le travail de convolution de la couche de cellules en alternance, à l'information de capture sur le contexte, et progressivement à la figure caractérisé le sous-échantillonnage; est un décodeur de codage structure de symétrie, dans lequel la taille augmente graduellement la figure, ce qui diminue le nombre de canaux, la caractéristique d'échantillonnage de la figure rétablir progressivement un détail d'image de haute résolution. L'U-Net dans lequel pensait figure, le décodeur peut être connecté par l'intermédiaire d'un codeur de saut correspondant échantillonnés caractéristiques de haute définition et des décodeurs pour combiner un pixel de masque de sortie finale par pixel.

. La figure 1. codeur U-NET - décodeur architecture de réseau de neurones, le codeur En variante, une seule couche de couches entièrement connectées VGG11 réseau convolutionnel. Après le rectangle bleu représente une étape de transformation multi-canal dans lequel la Fig. Elle est proportionnelle à la taille du diagramme rectangulaire caractéristique de hauteur et la largeur est proportionnelle au nombre de canaux. Le nombre de canaux sur le côté gauche du codeur progressivement augmenté, le nombre de canaux sur le côté droit du décodeur réduit progressivement. Haut flèche reliant la gauche et la droite à partir de la représentation codée de la couche de migration sur la couche d'information correspondant décodé.

TernausNet VGG11 utilisé en tant que codeur de réseau U-Net. Comme représenté sur la. Figure 2, VGG11 la couche de réseau 11 composé de la propagation vers l'avant. Y compris huit convolution couches, la convolution de chaque couche de noyau de convolution en utilisant un 3 * 3, sont suivies d'une fonction d'excitation de la couche RELU après convolution de chaque couche, les volumes 1,2,4,6,8 il a été suivi de près par une opération de piscine maximum 2 * 2 après stratification, après chaque opération dans laquelle une demi-taille figure. Les premiers canaux de la couche de convolution est 64, le nombre de canaux de la seconde couche 128, la quatrième couche 256 est le numéro de canal de la troisième couche, la cinquième couche à la huitième couche 512 du nombre de canaux. Aux fins de la segmentation sémantique, l'encodeur utilise une idées de conception similaire FCN remplacera les trois dernières couches VGG11512 à une couche de canal convolutif, il est également « goulot d'étranglement » du codeur et le décodeur, le U-Net deux portions séparées gauche et droite.

Figure 2. architecture réseau VGG11. Après chaque convolution de la fonction d'activation de la couche figure RELU. Nombre dans chaque case indique le nombre de canaux des caractéristiques correspondantes de la figure.

Pour construire la couche de décodeur de permutation convolutionnel, TernausNet deux fois avec la taille de la fonction figure alors que le nombre de canaux est réduit de moitié. sortie de convolution de transposition est ensuite reliée à la sortie du codeur respectif. La figure caractéristique obtenue par l'opération de convolution, en gardant le même nombre de canaux correspondant au codeur. L'étape d'échantillonnage a été répétée cinq fois pour cinq paires avec les couches de cellules maximale. Comme représenté sur la Fig. 1, il y a cinq puisque les couches maximales piscine de TernausNet, chaque couche des deux images de l'échantillon, par conséquent, seul le bord peut être 32, à savoir 5 ième puissance de 2, peuvent être utilisés comme images d'entrée divisible ce modèle.

Droit généralement poids U-Net est initialisé au hasard. La TernausNet plus grande amélioration par rapport au réseau conventionnel U-Net: TernausNet réinitialisée avant que les premières couches de U-Net avec le pré-formé droit IMAGEnet, et l'application de réglage fin (réglage fin). En fait, pour les tâches de segmentation d'images, annotation manuelle d'ensembles de données de segmentation d'images souvent au plus que quelques milliers d'images, de telles données par rapport à la taille de IMAGEnet et d'autres ensembles de données contenant des millions d'images est très faible. Afin d'éviter des problèmes surajustement, la collecte de données devrait être assez grand, cependant, cela apportera temps frais généraux. Afin de réduire le temps frais généraux et éviter surajustement, les paramètres utilisés TernausNet poids du réseau de formation IMAGEnet ensemble de données que le poids pré-formé.

la formation du modèle et les résultats des tests

Auteur sur ensemble de données d'annotation d'images de l'aviation pour tester la Inria performance de TernausNet. Les auteurs ont utilisé le coefficient Jaccard comme modèle d'évaluation standard. coefficient de similarité Jaccar est une mesure de la similitude entre les deux ensembles finis. Compte tenu de deux ensembles A et B, le rapport de la dimension de similitude Jaccard est l'intersection de A et B et l'amplitude de A et B est défini et le coefficient ensemble, défini comme suit:

Dans la tâche de segmentation d'image, parce que l'image est composée de pixels, le problème discret, on peut Jaccard similitude coefficient réécrite comme:

Parmi eux,

attribut Catégorie est le point de pixel binaire i,

Il est la probabilité de pixels dérivées prédit par le modèle.

Dans ce cas, la segmentation de l'image peut être considérée comme un pixel de la classification binaire, fonction de perte croisée entropie qui peut être exprimée sous la forme:

En d'autres termes, l'ensemble de la fonction de perte de TernausNet peut être exprimée comme suit:

Les résultats expérimentaux obtenus sur l'appareil d'essai représenté sur la figure 3:

Figure 3. Jaccard modèle U-Net sous trois coefficient de pondération de similarité des conditions différentes modifications avec réinitialisation du nombre de cas de formation. ligne bleue représente le poids du modèle droit d'initialisation aléatoire, la ligne orange indique la pré-formation encodeur IMAGEnet VGG11 initialisation du poids du réseau modèle, la ligne verte représente le réseau dans un ensemble de données de formation de modèle pré Carvana.

TernausNet segmentation d'image sur ensemble de données d'image aérienne INRIA représenté sur la figure 4:

Figure 4. pixel vert représente un groupe de classification de masque binaire (bâtiment). Le panneau A montre une image réelle et superposant le masque initial. Panel B à D de la figure différentes façons d'initialisation et de la formation des résultats de prédiction obtenus après 100. Panneau de droite B l'initialisation d'un réseau avec des poids aléatoires. le poids du modèle de décodeur droite panneau C sont initialisés de manière aléatoire, de sorte que le poids élevé de l'encodeur sur le poids de réseau VGG11 IMAGEnet poids pré-entraîné initialisé. Figure modèle D utilisé dans le poids préétabli des données Carvana obtenus en poids d'entraînement.

TernausNet l'auteur est d'avis que l'avenir peut être considéré comme encodeur pré-formation plus avancée, par exemple: VGG16 ou ResNet, utilisé pour construire un codeur - modèle de décodeur.

papier d'origine Adresse: https: //arxiv.org/pdf/1801.05746.pdf, Lei Feng réseau compilé AI Technology Review

Enfin en mesure d'élever une fille! « La version fille de parents chinois a publié les détails
Précédent
Cela pourrait être le meilleur que vous avez vu la suite de « Jurassic World 2 »: plus qu'un film pop-corn
Prochain
Tout est sous contrôle de Fuji X-E3 de coup d'oeil
Wang Dong-industrialiste lei: Je n'ai pas de place pour acheter, ils sont allés à l'éclairer | accès Qin Shuo
VG inventaire: ceux qui sont ouverts en 2019 seront en mesure de jouer le chef-d'uvre lourd
Sony a hérité de la dimension révolutionnaire haut de gamme chuchotant galerie HT-ST5000
Raiders jeu japonais cinq fleurs UCG457 hiver numéro spécial a été chaud au cur du marché
King a aussi haut et bas points A1 Sony et Samsung Q8C évaluation comparative
« Puisque les médias » et « la responsabilité » de l'ère des médias - « 2017 mieux que » une perspective | grand champ de vision
« L'emporte sur le mal, » Shijiazhuang Carnival Roadshow Primer 80000 double identité Eddie a été exposé Liao Fan
hégémonie route des puces développées auto-Apple, Qualcomm Intel peur?
musique Grid Riyad Nikon mise à jour complète coopération stratégique avec des images de mariage
Star News Feeds | Han a été approuvé "travail décevant", les fans mécontents, des excuses des médias
« Robe Iso-fille coupée en tissu » pour confirmer le lancement version chinoise de la version de démonstration fera ses débuts à Taipei Game Show