Unsupervised apprentissage nouvelle étude prédisent une rotation d'image simple, fournir le signal de surveillance forte se caractérise par l'apprentissage

 Ji-won nouvelle recommandation

Source d'origine: arXiv

Auteur: Spyros Gidaris, Praveer Singh, Nikos Komodakis

compilation "Lexus World": ah ~ Astro Boy ah, KABUDA, EVA

[New Ji-won EXAMEN Dans ce document, les chercheurs ont formé un réseau neuronal à reconnaître la convolution à deux dimensions sur la rotation de l'image est appliquée en tant qu'entrée à. Des aspects qualitatifs et quantitatifs ont prouvé que cette tâche apparemment simple fournit en fait un signal très puissant pour surveiller les caractéristiques sémantiques de l'apprentissage.

Au cours des dernières années, le réseau de neurones profondeur de convolution (de ConvNets) a changé le champ de vision par ordinateur, ce qui est dû à leur capacité inégalée d'apprendre des fonctionnalités sémantiques avancées d'image. Toutefois, afin d'apprendre avec succès ces caractéristiques, ils nécessitent généralement de grandes quantités de données manuellement marqués, il était cher et infaisable. Par conséquent, les caractéristiques sémantiques de l'apprentissage non supervisé, à savoir l'apprentissage sans qu'il soit nécessaire pour le travail d'annotation manuelle, il est essentiel pour le succès d'aujourd'hui obtenir un grand nombre de données visuelles disponibles.

Dans notre étude, nous avons l'intention d'apprendre l'image présente de cette façon: la formation d'un réseau de neurones pour identifier la convolution est appliquée à l'image de rotation à deux dimensions en entrée. Nous montrons que les aspects qualitatifs et quantitatifs, cette tâche apparemment simple fournit en fait un signal très puissant pour surveiller les caractéristiques sémantiques de l'apprentissage. Nous présentons une variété de critères d'apprentissage sans supervision dans notre approche d'une évaluation détaillée, et de démontrer les meilleures performances de pointe dans tous ces points de référence.

Plus précisément, nos résultats dans ces benchmarks montrent la caractérisation dans l'apprentissage non supervisé, par rapport aux méthodes précédentes les plus avancées, notre méthode a apporté des améliorations considérables, ce qui a considérablement réduit l'écart entre l'apprentissage et le suivi des caractéristiques. Par exemple, dans les tâches d'inspection COV PASCAL 2007, modèle sans supervision AlexNet préformation atteint 54,4% des plus performances avancées (dans les méthodes non supervisées), que dans le cas de l'apprentissage supervisé seulement un petit 2,4 points de pourcentage . Lorsque nous migrons fonction d'apprentissage non supervisé à d'autres tâches, nous obtenons les mêmes résultats surprenants, tels que la classification IMAGEnet, classification PASCAL, la segmentation et la classification PASCAL-10 ICRA. Code et le modèle de nos documents seront publiés ici:

(Https://github.com/gidariss/FeatureLearningRotNet).

Ces dernières années, la profondeur des réseaux de neurones de convolution dans la vision informatique largement utilisé (LeCun et al., 1998), a fait d'énormes progrès dans ce domaine. Plus précisément, (Russakovsky et al. 2015) par un grand nombre de données d'étiquette d'identification cible manuellement ou le classement de la scène (Zhou et al. 2014) sur la tâche du réseau de neurones est convolutionnel formé pour adapter leur réussite scolaire puissante représentation visuelle des tâches de compréhension de l'image. Par exemple, sous la supervision de cette façon, l'image dispose d'apprentissage du réseau de neurones de convolution leur est migré pour obtenir de bons résultats lors d'autres tâches visuelles, telles que la détection cible (Girshick fait en 2015), la segmentation sémantique (Long et al., 2015), ou la description d'image (Karpathy et Fei-Fei effectués en 2015). Cependant, les caractéristiques d'apprentissage supervisé ont une limitation majeure qui nécessite beaucoup de travail marquage manuel. Dans le cas a maintenant un grand nombre de données visuelles disponibles, ce qui est à la fois coûteux et infaisable.

rotation multiples aléatoires de 90 ° (par exemple, 0 °, 90 °, 180 °, 270 °) de l'image. Notre méthode d'auto-apprentissage supervisé des caractéristiques de base du concept est que si une personne n'a pas de concept de l'image de l'objet décrit, il ne peut pas être appliqué pour identifier leur rotation

Par conséquent, les personnes récentes manière non supervisée d'apprendre la caractérisation avancée de convolution basée sur les réseaux de neurones sont de plus en plus intéressés par, en évitant ainsi l'annotation manuelle des données visuelles. Parmi eux, un exemple bien connu est le soi-disant auto-apprentissage supervisé, il définit un commentaire tâche excuse sans entrave, en utilisant uniquement des informations visuelles sur l'image ou la vidéo, ce qui donne les caractéristiques d'un apprentissage fournit un signal de surveillance proxy. Par exemple, afin d'apprendre les caractéristiques, Zhang et al., Et Larsson et al convolutif réseau neuronal formé pour la coloration, Doersch et al. (2015) image de gris, et Noroozi Favaro (2016) bloc image prédite par rapport position et Agrawal et al. (2015) prédit le mouvement entre deux trames successives du véhicule en mouvement (à savoir, automatique). Cette mission d'auto-surveillance derrière le principe de base est que la résolution de ces problèmes forcera l'apprentissage réseau de neurones de convolution caractéristique d'image sémantique, qui est utile pour d'autres tâches visuelles. En fait, l'image se caractérise par la tâche d'auto-apprentissage supervisé, même si elles ne l'ont pas tout à fait la caractérisation de la performance de l'apprentissage supervisé, mais ils ont fait leurs preuves lors de la migration vers d'autres tâches visuelles est un bon choix, comme l'identification des cibles, la cible la détection et la segmentation sémantique. Autre étude réussie de cas de fonction de classification non supervisée est la méthode fondée sur la reconstruction des méthodes d'apprentissage et sur la base du modèle de probabilité de génération.

Schéma de Explicite pour des tâches de surveillance de l'apprentissage des caractéristiques sémantiques de notre projet

Notre étude suit l'exemple de l'auto-surveillance, et proposé par la formation de la convolution de réseau neuronal (de ConvNets) identifier transformation géométrique est appliquée à l'image en entrée, de sorte que la représentation d'image d'apprentissage. Plus précisément, d'abord, on définit un ensemble de transformations géométriques discrètes, et ensuite chaque image sur chacun de ces transformation géométrique appliquée à l'ensemble de données, et l'image convertie produite est amenée à la formation pour identifier chaque image de modèle de réseau neuronal convolutif transformé. Dans cette méthode, il est un ensemble de transformations géométriques, en fait, la définition de convolution modèle de réseau de neurones doit apprendre la classification des tâches interface (tâche sous prétexte de classification). Par conséquent, afin d'obtenir des caractéristiques sémantiques apprentissage non supervisé, le bon choix de ces transformation géométrique est essentielle. Nous proposons que la transformation géométrique est définie comme étant la rotation de l'image 0 °, 90 °, 180 ° et 270 °. Ainsi, un réseau de neurones est convolutionnel formé pour identifier l'un des quatre images sur la rotation (voir fig. 2) de quatre types de tâches de classification d'image. Nous croyons que, afin de permettre un modèle de ConvNet capable d'identifier la transformation de rotation appliquée à l'image, il faut comprendre le concept d'objet dans l'image comme décrit (voir fig. 1), par exemple, leur position dans l'image, et le type de la posture. Tout au long de cet article, nous soutenons cette théorie du raisonnement qualitatif et quantitatif. De plus, nous avons démontré expérimentalement que, malgré notre méthode d'auto-surveillance est très simple, mais la tâche de transformation de rotation de prévision se caractérise par des offres d'apprentissage une alternative puissante au signal de surveillance. Nous avons fait d'importants progrès sur les points de référence pertinents.

Modèle généré par l'attention AlexNet figure (carte d'attention), (a) être formé pour reconnaître des cibles (supervision), et (b) est formé pour reconnaître la rotation d'image (auto-contrôle). Notez que la figure Pour générer une couche de convolution, on calcule d'abord la cartographie de la couche de fonction, et nous augmentons la puissance p de chaque activation de fonction, l'activation de la position à chacun la carte de fonction Enfin, nous avons résumé. Pour les couches de convolution 2 et 3, respectivement, on utilise p = 1, p = 2 et p = 4

Il convient de noter que notre tâche est différente de la supervision des méthodes de recherche Dosovitskiy et al. 2014 et Agrawal et al., Proposée pour 2015, même si elles se rapportent à des transformations géométriques. Dosovitskiy, qui a été formé en 2014. convolution modèle de réseau de neurones pour créer une distinction entre la caractérisation de l'image sans altérer les transformations géométriques et couleurs. Au lieu de cela, on forme le modèle de réseau neuronal de convolution pour identifier la transformation géométrique appliquée à l'image. Cette méthode d'auto-mouvement et Agrawal et al en 2015 (méthode de egomotion) est fondamentalement différente, le procédé utilise un modèle de réseau neuronal de convolution avec des jumeaux structure (siamois), le modèle sera deux vidéo consécutive châssis en entrée et de la formation afin de prédire sa conversion de caméra (par régression). En revanche, notre méthode, un seul réseau de neurones à convolution en tant que l'image d'entrée, on a appliqué une transformation géométrique aléatoire (rotation), et une formation (par classification) identifiant une telle transformation géométrique, sans accéder à l'image d'origine .

AlexNet appris par le filtre de modèle dans la première couche (a) surveillance et le contrôle de la tâche de reconnaissance d'objets de tâche et (b) la rotation de l'entraînement à la reconnaissance de l'image

Notre contribution:

Nous vous proposons une nouvelle tâche d'auto-surveillance, la tâche est très simple, en même temps, nous sommes aussi des articles ont été exposés, en fournissant un signal fort pour la surveillance des caractéristiques sémantiques d'apprentissage.

Nous (comme l'environnement ou la migration d'apprentissage semi-supervisé) dans une variété d'environnements et une variété de tâches visuelles (c.-à-ICRA-10, IMAGEnet, les lieux et la classification PASCAL et les tâches de détection ou segmentation) dans une évaluation détaillée de nos méthodes d'auto-surveillance.

nouvelle méthode d'auto-surveillance, nous proposons de montrer à tous égards les résultats les plus avancés ont été nettement améliorée par rapport méthode sans supervision précédente.

Nos recherches montrent que, pour plusieurs tâches visuelles importantes, notre méthode d'auto-apprentissage supervisé de manière significative à réduire l'écart entre l'apprentissage et la fonction dirigées et non dirigées.

Après l'étude, nous proposons une nouvelle méthode pour la fonction d'auto-apprentissage supervisé, qui est formé par convolution modèle de réseau de neurones pour lui permettre d'identifier la rotation de l'image a été utilisé comme l'image d'entrée. Bien que notre tâche d'auto-surveillance est très simple, mais nous avons prouvé qu'il peut formé avec succès le modèle convolutif de réseau de neurones pour étudier les caractéristiques sémantiques, les caractéristiques sémantiques qui sont utiles pour une variété de tâches de perception visuelle, comme la reconnaissance d'objets, détection d'objet et la segmentation de l'objet . Nous étions en route à des évaluations détaillées dans une variété de conditions non surveillées et semi-supervisés, et d'atteindre les meilleures performances de pointe dans le test. Plus précisément, notre méthode d'auto-surveillance améliore considérablement la classification des IMAGEnet, présente la classification non supervisée PASCAL, étude détection PASCAL, la segmentation et la classification PASCAL-10 les ICRA derniers résultats, au-delà de la méthode classique, ce qui réduit de manière significative la non supervisée et superviser l'écart entre les caractéristiques d'apprentissage.

Lien original: https: //arxiv.org/pdf/1803.07728.pdf

ABC Roundup: Petite Bryant a marqué 58 + 12 + 9 du crochet du Xinjiang, Shandong, Guangdong fortes victoires trois fois de suite
Précédent
Japon détail Apocalypse: la tradition de la « joie » numérique est « cachée »
Prochain
Je Qingdao en fait un film!
Il est enfin là! Au cours du printemps, originaire de Xiamen Jingdezhen automobile aller-retour!
Automation haut de la parole DATE: pilote automatique pas un jugement de valeur, la ligne de base est pas causée par un accident
Cona est un peu coupable ambigu de? Les jeux en ligne vont horizon épée, en réalité, la fille qu'il a triché près d'un million
Comment capturer Chow Yun Fat sauvages à Hong Kong?
La détection d'objet modèle classique YOLO nouvelle mise à jour, look, 3 fois plus vite!
Un détail de la semaine | réputation faim, il a annoncé des jeux Double Douze sont joués; Yonghui Supermarket dépouillé Yunchuang
Xiaogan cet endroit à la démolition! Grande changement, les gens qui vivent ici vaudra grimpé en flèche!
Le plus cher des huit vins de Bordeaux!
Electricité ère de coton contre-attaque du fournisseur: d'une perte de 150 millions, le leader de l'industrie en six ans
Au revoir, Shuai Mada! Merci vous aviez été là, ce beau vieillard en Allemagne
Taps Shu cette décennie, j'ai connu trois changements de costumes civils