CVPR 2018 Résumé: Partie IV

Cet article est une compilation de technologie blog AI Yanxishe, le titre original:

État de l'art dans le domaine Adaptation (CVPR Revue IV)

Auteur | Sergey Nikolenko, Anastasia Gaydashenko

Traduction | Relecture Zhao | sauce poire Fan

Finition | soeur ananas

Lien original:

https://medium.com/neuromation-io-blog/state-of-the-art-in-domain-adaptation-cvpr-in-review-iv-21ac05f935b9

Les derniers progrès dans le domaine de l'adaptation (CVPR examen -4)

Nous avons trois phases sur CVPR 2018 (Vision par ordinateur et reconnaissance) réunions: la première partie consacrée à la GAN de vision par ordinateur, la deuxième partie avec les papiers d'identité sur (estimation de la pose et de suivi) humaine, la troisième partie est consacrée à la synthèse des données. Aujourd'hui, nous explorons en profondeur les détails de la profondeur de champ d'étude a récemment été en train d'émerger le domaine de l'adaptation. Pour cette NeuroNugget, je suis heureux de vous présenter mon co-auteur Anastasia Gaydashenko, il a quitté et continue de se joindre à Cisco Neuromation ... mais sa recherche continue l'existence, ce qui est l'un d'entre eux.

Quel est le domaine de l'adaptation?

Il y a plusieurs tendances spécifiques de récentes études (y compris CVPR 2018), l'un qui est adapté au champ. Parce que étroitement liée à la synthèse des données dans ce domaine, donc nous sommes très intéressés par notre Neuromation, mais ce sujet est devenu de plus en plus populaire et importante en elle-même.

Commençons à partir de zéro. Nous avons déjà discuté les constituent la plupart des tâches communes la base de la vision informatique moderne: la classification, objet, et la détection de mouvement, et des exemples de segmentation sémantique, le suivi des objets et ainsi de suite. Depuis la profondeur de l'architecture neuronale de convolution et un grand nombre de données de marqueurs, ces problèmes ont été solution assez réussie.

Cependant, comme nous l'avons vu dans la section précédente, il y a toujours un énorme défi: Pour l'apprentissage supervisé, vous devez toujours trouver ou créer les ensembles de données d'étiquette. Presque tous les journaux sur certains modèles d'art particulier seront soumises à certains des problèmes d'ensembles de données, chacun à moins qu'ils utilisent relativement peu de gens sont généralement standard ensemble de données « vanille ». Par conséquent, pour recueillir des données d'étiquette est aussi importante que la conception du réseau. Ces ensembles de données doivent être suffisamment fiables et polyvalents, de sorte que les chercheurs peuvent utiliser pour développer et évaluer l'architecture nouvelle.

Nous avons beaucoup parlé de la collecte manuelle des données est à la fois coûteuse et prend du temps, souvent très épuisant. Parfois, impossible manuellement les données d'étiquette (par exemple, comment marquer l'estimation de la profondeur, le point d'évaluation à la distance de la caméra sur l'image?). Bien sûr, de nombreuses normes ont été marquées avec de grands ensembles de données librement ou facilement disponibles. Mais d'abord, ces données faciles à tagged peut (et fait) l'étude ont tendance à être utilisés dans des zones spécifiques, et d'autre part, votre problème ne sera jamais exactement les mêmes ensembles de données standard ne satisfont généralement pas à vos besoins: ils contiennent différents catégorie, il y aura un biais différent, et ainsi de suite.

L'utilisation des ensembles de données existants, et même le principal problème n'est pas spécifiquement générateur de données synthétisées pour votre problème particulier est, lorsque les données sont générées et a été marqué, nous avons encore le transfert de domaine du problème: Comment faire face à l'utilisation d'un réseau de préparation de données différents types? Pour l'ensemble du champ des données synthétiques, ce problème est très important: si vous faites ou non un vrai, et il est toujours pas complètement photo de zone distinguer le monde réel. Le défi est appelé ici le domaine principal de changement de vitesse potentiel: Essentiellement, le domaine cible de distribution de données (par exemple, l'image réelle) et la répartition des données (par exemple, l'image composite) différent du domaine source. Le problème avec ce modèle est conçu pour répondre à l'évolution de ce qu'on appelle le domaine de l'adaptation.

Voyons voir maintenant comment les gens face à ce problème, considèrent le nombre de papiers CVPR 2018, un peu plus de détails que la précédente « CVPR Revue » Certains versements.

domaines d'apprentissage ont une adaptation similaire sans supervision

Pedro Pinheiro de ce travail (voir pdf) de elementai, c'est une entreprise montréalaise, co-fondée en 2016 par le Yoshua Bengio. Elle implique la méthode d'adaptation de domaine basé sur le réseau contradictoire, nous avons mentionné plus tôt cette façon (voir l'article, la deuxième partie à venir).

La méthode la plus simple pour lutter contre des zones non surveillées tentent d'extraire une adaptation inter-domaines pour maintenir les mêmes caractéristiques du réseau. Pour ce faire, les tentatives de réseau pour les séparer d'une partie de réseau (discriminateur ( « disque » inférieur figure) ne peut pas être distingué, mais en même temps, ces fonctions doivent être représentatives du domaine source au réseau pour classer l'objet:

De cette façon, le réseau doit être en mesure d'extraire des caractéristiques d'atteindre simultanément deux objectifs: (1) des informations suffisantes, le réseau « classe » (généralement très simple) peuvent être classés, (2) indépendante du champ, afin de réseau « CD » (en général comme extracteur complexe et caractéristique lui-même, ou plus) ne peut pas vraiment distinguer. S'il vous plaît noter que nous n'avons des balises pour le domaine cible, uniquement pour le domaine source, sont généralement plus faciles (considérer le domaine des ressources de données de synthèse à nouveau).

Dans le document Pinheiro, en utilisant cette méthode pour améliorer la section de classification basée sur la similitude de remplacement partiel. La discrimination reste inchangée, la section de classification compare l'image avec un ensemble de prototype embarqué maintenant, toutes ces déclarations sont basées sur le chemin à la fin commune de l'apprentissage:

Fondamentalement, nous avons besoin d'une marque de réseau g extraire des caractéristiques à partir d'un autre domaine de source de réseau et de f afin d'extraire le nom de domaine cible non marquée ayant une similaires mais différentes caractéristiques de distribution de données. La différence est que maintenant f et g sont différents (nous avons le même f dans la figure ci-dessus), et le classement est maintenant différent: nous formons le modèle prototype pour distinguer entre la cible et tous les autres prototypes, plutôt que la formation du classificateur. Pour marquer la cible à partir du domaine de l'image, nous allons intégrer l'intégration image prototype du domaine de l'image source balises par rapport assignées ses plus proches voisins:

Cet article montre, la classification sur la base de la similitude entre les deux domaines de déplacer plus robuste selon l'ensemble de données.

collier l'image adaptatif de domaine de traduction de l'image

Dans Murez et d'autres, ce travail (complet pdf). De l'Université de Californie, San Diego et le laboratoire de HRL, l'idée principale est en fait assez simple, mais la mise en uvre est nouvelle et intéressante. Le travail implique plus complexe que la tâche de classification de la segmentation d'image (voir notre post précédent), qui est largement utilisé pour la conduite automatique, l'imagerie médicale, et bien d'autres domaines. Alors de quoi ils parlent de cette « traduction d'image » Oui?

Commençons par la traduction classique. Imaginez que nous avons deux grands corpus de textes en différentes langues, comme l'anglais et le français, nous ne savons pas quelles expressions qui correspondent. Ils peuvent même être légèrement différentes, peuvent ne pas avoir la traduction appropriée dans d'autres corpus langues. Comme les images de domaine réel et la synthèse de domaine du même. Maintenant, afin d'obtenir un modèle de traduction automatique, nous serons une phrase traduit de l'anglais en français, et en essayant de distinguer la région de noyage phrase intégrée dans l'expression résultant du corpus original français. Vérifiez ensuite que nous n'avons pas perdu trop est d'essayer de traduire cette phrase en anglais, maintenant, même si le corpus d'origine complètement aligné, et nous savons ce que nous recherchons: La réponse est que la phrase originale.

Maintenant, regardons à convertir l'image à l'image, en fait, il est très similaire. Fondamentalement, les objectifs de la technique de l'art adaptatif distribués à partir de la source de distribution de données de mappage de cible pour résoudre le problème en trouvant le déplacement du domaine. En variante, les champs X et Y peuvent être mis en correspondance avec le domaine partagé Z, dans lequel le profil est aligné, ce qui est le procédé utilisé ici. Ce champ doit être inconnue équipée (indépendante de domaine), donc nous voulons maximiser la distribution de la similitude entre la source et les images intégrées cibles.

Par exemple, supposons que X est une scène de conduite champ ensoleillé, Y est un champ de jour de pluie scène de conduite. Bien que le « soleil » et « Rain » sont les caractéristiques des domaines source et cible, mais en fait, ils sont à peu près vide de sens pour tâche de commentaires (par exemple, des segments sémantiques de la route), et ils ne devraient pas perturber commentaire. Lors de la manipulation des fonctionnalités telles que bruit ou de la structure, nous voulons trouver des caractéristiques invariantes à ces changements de l'espace potentiel Z. Autrement dit, ne doit pas contenir le domaine Z domaine spécifique, à savoir, quel que soit le domaine.

Dans ce cas, nous espérons également de restaurer l'image d'annotation du domaine cible. Par conséquent, nous devons aussi ajouter une cartographie de l'espace partagé inclus dans l'étiquette. Il peut être les balises de niveau d'image, tels que les balises de problèmes de classification de classe ou niveau de pixel, tels que le segment sémantique:

En gros, cela est l'idée. Maintenant, obtenir un commentaire de l'image de domaine cible, nous avons seulement besoin de partager l'espace Z et intégrer restaurons ses commentaires de C. Telle est l'idée de base de la méthode, mais dans le présent document peut être encore améliorée par ces idées.

En particulier, les succès des zones non surveillées pour répondre aux besoins des trois principaux outils:

  • Extraction de caractéristiques quel que soit le domaine, ce qui signifie que l'antagonisme est déterminé à partir du domaine de réseau discriminateur caractéristiques extraites à partir des deux distributions doit être distingué

  • Reconstruction d'un domaine particulier, ce qui signifie que nous devrions être en mesure de revenir décodé à intégrer les domaines source et cible, qui est, nous devrions être en mesure d'apprendre la fonction gx ci-dessous et gY:

  • la cohérence du cycle, afin d'assurer une bonne étude de la cartographie, qui est, nous devrions être en mesure de revenir au cycle que nous avons commencé, comme suit:

cadre objectif proposé dans ce travail est de faire en sorte que ces attributs ont contre fonction de perte et de la structure. Nous ne rentrerons pas dans les détails de l'architecture, car ils peuvent être modifiés pour d'autres domaines et questions.

Mais regardons les résultats. Enfin, nous aurons trois domaines d'adaptation sur une comparaison détaillée papier du poste, mais maintenant, regardons un exemple. Tel qu'il est utilisé ici, les deux ensembles de données: Grand Theft Auto 5 à partir de données synthétiques et des ensembles de données du monde réel avec le paysage urbain de l'image de la ville. Ceci est un exemple de deux images:

Ce qui suit est les images résultats de segmentation (figure B) du monde réel:

Dans cette image, E est la segmentation de la réalité de terrain, C ne sont pas le résultat de l'adaptation à tout ensembles de données de synthèse de GTA5 par la formation, D est le résultat du champ d'adaptation. Il ne semble mieux, et les chiffres (une mesure de la Croix) a confirmé cela.

Structure de réseau adaptatif contre les conditions de champ générées

Cet article a été écrit par Hong et al (complet pdf) proposé discriminateur standard - Une autre modification de l'architecture segmentée. De la première architecture I scie à temps, nous pouvons même pas remarqué de différence:

Mais en fait, cette architecture est très intéressante: elle est entièrement intégrée dans la convolution GAN réseau (FCN) dans. Nous avons discuté dans un précédent post NeuroNugget le FCN, il est une architecture de réseau pour la segmentation, qui offre des fonctions de retour à l'étiquette d'image pour chaque pixel est déterminée par la couche déconvolution.

Dans ce modèle, GAN utilisé pour soulager l'écart entre les domaines source et cible. Par exemple, les deux premiers domaines align papier caractérisé par un espace intermédiaire, qui est implicitement supposé que les deux domaines ont la même fonction de décision. Cette méthode a assoupli cette hypothèse: Ici, nous apprenons du résiduel entre le diagramme caractéristique deux domaines, puisque le générateur génère appris fonctionnalité similaire à une image réelle à discriminateur tromper, puis, mis à jour pour tenir compte des paramètres FCN GAN les changements.

De même, nous montrerons les résultats numériques de la comparaison ci-dessous, mais voici quelques exemples de l'ensemble de données:

Il est à noter que, dans ce travail, l'auteur nous fournit également les données de l'étude de la synthèse de l'efficacité à faire des choses très similaires: ils ont mesuré la précision des résultats (mesurés à nouveau par réticulation) dépend des données partielles concentré image de synthèse:

L'apprentissage à partir des données combinées: résolution champ de changement de problèmes sémantiques divisé

Ce travail est effectué par le Sankaranarayanan (complet pdf) qui a introduit une autre modifiée en fonction des méthodes de base de GaN, ce qui rend l'espace incorporés dans des fonctionnalités plus proche de l'apprentissage. Cette fois, nous allons commencer à partir de l'image, puis l'expliquer:

la configuration du réseau de base est similaire au modèle de pré-formé, comme VGG-16, divisée en deux parties: la classification intégré et la représentation pixel par pixel du F représente C. C est délivré à l'échantillon d'entrée de la même taille sur l'étiquette de la carte C. L'apprentissage du réseau Le générateur G est monté en entrée et reconstruit l'image RVB. discriminateur de réseau D exécuté quand une entrée donnée de deux tâches différentes: d'une manière cohérente les champs d'entrée classés comme vrai ou faux, et effectue également des tâches similaires au réseau de marquage du pixel C (cela ne concerne que la source de données parce que les données ne sont pas des étiquettes pendant la formation).

Par conséquent, la principale contribution de ce travail est l'utilisation de modèles pour générer l'alignement source de la technologie spatiale de fonction et de la distribution cible. A cet effet, d'une part en reconstituant une partie de la formation du réseau, dans lequel la représentation intermédiaire obtenu CNN projeté espace d'image, puis forcée à travers une fonction d'apprentissage de telle sorte qu'une source de génération d'une caractéristique d'image similaire au domaine cible contrainte d'alignement imposé. Lorsqu'il est passé au module de reconstruction, et vice versa.

Cela vous paraît compliqué, donc nous allons jeter un oeil à la façon dont toutes ces méthodes sont en fait comparables.

Les résultats de la comparaison numérique

Nous avons choisi trois documents d'étude approfondie, parce que leurs résultats sont en fait comparables! Les trois documents sont utilisés comme s'adapter domaine source GTA5 (synthétique) ensembles de données et Cityscapes ensemble de données comme cible, afin que nous puissions simplement comparer ces chiffres.

Cityscapes données contient 19 caractérisé en scènes extérieures urbaines, comme « route », « mur », « personne », « voiture » et autres. Les trois documents contiennent en fait une table, dont les résultats ventilés par catégorie.

Murez et al, Image à la traduction de l'image.:

Hong et al, Etat GAN.:

Sankaranarayanan et al, GAN FCN.:

Les résultats moyens ont été 31.8,44.5,37.1, afin que l'image apparaît à la méthode d'image est le plus grand succès, avec le GAN condition gagnante. Pour plus de clarté, nous devons comparer les trois premières catégories les plus impossibles à distinguer de chaque méthode (par exemple les meilleurs résultats pires et).

La plus évidente est la même, conformément à l'ordre du modèle:

  • route (85,3), voiture (76,7), Veg (72,0)

  • route (89,2), veg (77,9), voiture (77,8)

  • route (88,0), voiture (80,4), Veg (78,7)

Mais le pire bien sûr, la situation est différente:

  • train (0,3), vélo (0,6), le pilote (3,3)

  • train (0,0), la clôture (10.9), la paroi (13.5)

  • train (0,9), signe de t (11,6), le mât (16,7)

Encore une fois, les classes « former » semblent constituer un défi insurmontable (probablement pas tant la collection de jeu de formation), mais d'autres sont différents. Alors Comparons tous basés sur la catégorie « bicyclette », « vélo », « rider », « clôture », « mur », « t signe », et le modèle « pôle ». Maintenant, leurs scores seront très clairs:

Vous pouvez tirer des conclusions différentes de ces résultats. Mais nous nous sentons personnellement principal résultat vraiment excitant est que pour une telle une tâche complexe peut être fait de plusieurs façons différentes, dans différents papiers pour produire la même réunion (les auteurs ne peuvent pas suivre les uns des autres, ces résultats semblent indépendants) est complètement par rapport à l'autre, les chercheurs n'a pas hésité à publier ces chiffres comparables, et non pas des indicateurs d'auto-développement confortable, ce qui prouvera la suprématie de la façon dont ils vont hee hee hee indiscutée apprentissage machine moderne.

Enfin, laissez-nous d'une manière plus détendue pour compléter, il y a traité intéressant sur des données synthétiques.

jeux vidéo gratuits supervisés

Dans ce travail, PhilippKrähenbühl (complet pdf) pour la populaire API de rendu Microsoft DirectX crée une enveloppe, et courir dans le jeu lorsque vous ajoutez un code spécial pour le jeu. Cela permet de produire le moteur en temps réel DirectX étiquetage vérité au sol, par exemple segment, balisage sémantique, l'estimation de la profondeur, flux optique, la décomposition de l'image et le suivi de l'instance intrinsèque! Cela semble très cool, parce que maintenant, les chercheurs ont non seulement des données d'étiquette manuellement ou créer un ensemble de données de moteur synthétique spécial, et peuvent jouer à des jeux vidéo toute la journée! Vous devez faire est de trouver le bon jeu 3D:

Nous avons terminé la quatrième partie de CVPR 2018. Nous vous remercions de votre attention - restez à l'écoute.

Sergey NikolenkoChief Agent de recherche, Neuromation

Anastasia Gaydashenkoformer Stagiaire en recherche à Neuromation, actuellement Machine Learning Stagiaire chez Cisco

Je veux continuer à voir les articles liens et références connexes?

Cliquez sur le lien pour ouvrir la presse ou cliquez sur [CVPR 2018 Résumé: Partie IV]:

Voir le résumé 2018 articles série plus CVPR, s'il vous plaît cliquez sur: Lei Feng Lei Feng Lei réseau de réseau de réseau Feng

  • CVPR 2018 Résumé: La première partie

  • CVPR 2018 Résumé: Partie II

  • CVPR 2018 Résumé: Partie III

AI Yanxishe contenu passionnant mis à jour tous les jours, pour voir plus de contenu:

YOLO construction et l'utilisation SKIL système de détection de cible au niveau du produit

Comment améliorer considérablement la vitesse de votre modèle d'efficacité de la formation?

Conscience recommande: 20 semaines à étudier des autocollants d'expérience en sciences informatiques (ressources ci-joints)

les scientifiques données devraient comprendre les concepts de base des cinq statistiques: caractéristiques statistiques, les distributions de probabilité, la réduction de dimensionnalité, suréchantillonnage / undersampling, statistique bayésienne

Genius gauche, une différence étape, ce titre a été victoires consécutives abus homme Ressorts
Précédent
POLO débuts avec plus de dix ans, comment « peu de viande fraîche » la performance Vios FS
Prochain
« Z Tempête 4 » montrent une forte route entrant à Dongguan, les prisonniers Raymond Louis Cheung ont été salués modèle
Sacai x conception fragment ne pas l'acheter n'a pas d'importance! Cette paire de bénédiction des hautes lumières Converse vous avez certainement la possibilité d'avoir!
Maison avait deux fils et à l'automne, magasin Chongqing Tongliang, magasin ouvert aujourd'hui à Wushan
A propos de la différence entre HTTP et HTTPS
sixième année des étudiants écrit plus de 10 millions de points a gagné l'éloge, il a en fait écrit ce
Wei Wang Beiqi S50 certains modèles de chute officielle d'une baisse de 10000 yuans
Jeux asiatiques jeux électroniques non droits de diffusion? CCTV a dit que je suis le seul!
Mise au point de Super | petit Cruyff: joué le pire premier semestre depuis qu'il a pris ses fonctions, voudrait présenter des excuses aux fans
marché automobile avril et le ralentissement, mais ils seront encore vendre un + 3W
Congrès national du peuple Liu Jiaqi: village Mu de longane et ouvert nouvelle rosette nouveau fruit
Le neuvième anniversaire d'une grande planification sans précédent! 1LDK main au nom de la mode PORTER apporter d'autres séries de notes!
Sept « attaque de sécurité réseau et de la défense novice » outils de sécurité réseau pratique novice