classification non supervis�e d'images pour atteindre bout � bout de cette fa�on! (Avec papier)

Source: Almost Human

Cet article sur 2387 mots Il a recommand� la lecture pendant cinq minutes.

Les chercheurs ont propos� de FAIR m�thode de classification pour la formation � grande �chelle de bout en r�seau de convolution final. Ils se sont av�r�s obtenir des caract�ristiques visuelles utiles commun avec le cadre du cluster est r�alisable.

Clustering est une m�thode d'apprentissage non supervis� est largement utilis� et de la recherche en vision par ordinateur, mais presque pas de caract�ristiques visuelles sur de grands ensembles de donn�es � la fin avait �t� adopt� la formation finale. Ici, Facebook AI Institut propos� profondeur regroupement (DeepCluster), le proc�d� de mise en grappe de neurones apprentissage combin� de l'acquisition des param�tres et des caract�ristiques des grappes r�seau assign�es. Les r�sultats de la formation sans supervision sur IMAGEnet et YFCC100M autre taille typique de l'ensemble de donn�es d'�missions de r�seau de neurones de convolution que cette m�thode est de loin sup�rieure � la technologie actuelle dans tous les indicateurs de performance.

la formation du r�seau de neurones Preconvoluted, parfois appel� le r�seau de convolution, est devenu la base de la plupart des applications de vision par ordinateur des blocs de construction . Ils peuvent �tre extraits d'excellentes caract�ristiques g�n�rales, apprendre � am�liorer la capacit� de g�n�ralisation des donn�es limit�es dans le mod�le . Les grandes IMAGEnet de surveillance des ensembles de donn�es est mis en place pour promouvoir les progr�s du r�seau pr�-formation de convolution. Cependant, Stock et Ciss� donn�es empiriques r�centes sugg�rent que la performance optimale du classificateur sur la performance de IMAGEnet est largement sous-estim�e, et � gauche presque pas de probl�me d'erreur. Ceci explique pourquoi, en d�pit de l'�mergence d'un grand nombre de nouvelle architecture au cours des derni�res ann�es, dans une certaine mesure, mais la performance est encore satur�e . En fait, selon les normes d'aujourd'hui, IMAGEnet est relativement faible, il � seulement � contient un million d'images couvrant tous les domaines de la classification. Donc, pour construire un plus grand et plus diversifi�, et comprend m�me des milliards de jeu de donn�es d'image est logique. Et cela n�cessitera beaucoup d'annotation manuelle, bien que la communaut� au cours des ann�es a accumul� une richesse d'expertise crowdsourcing , mais au lieu de l'�tiquette par les m�tadonn�es d'origine entra�nera l'�cart de repr�sentation visuelle, ce qui entra�ne des cons�quences impr�visibles . Cela n�cessite la m�thode de formation pour les ensembles de donn�es � l'�chelle Internet sans supervision.

Apprentissage non supervis� dans la communaut� d'apprentissage machine a �t� largement �tudi�e, sont souvent utilis�s dans les applications de vision par ordinateur, le regroupement, la r�duction de la dimensionnalit� ou de densit� algorithme d'estimation . Par exemple, � dans lequel le paquet � en utilisant un descripteur de mod�les de classification de g�n�ration d'image �tiquet�s manuellement bon niveau caract�ristique . Il est une raison cl� du succ�s est qu'ils peuvent �tre appliqu�s � un domaine particulier ou un ensemble de donn�es, telles que les images satellite ou des images m�dicales, ou en utilisant une nouvelle modalit� (par exemple, la profondeur de l'objet) acquis dans ce mode, incapable d'obtenir beaucoup d'�tiquettes. Plusieurs �tudes indiquent que l'estimation non supervis�e ou densit� bas�e sur la r�duction de la dimension peut �tre appliqu�e � un mod�le de profondeur pour produire une bonne caract�ristiques visuelles g�n�rales . Bien que la m�thode de regroupement a obtenu un succ�s initial dans la classification de l'image, mais peu fait au r�seau fin de convolution pour la formation , et � l'�chelle immature. Le probl�me est que la m�thode de classification est principalement con�u pour les mod�les lin�aires disposent d'un fixe, si les caract�ristiques d'apprentissage n�cessaires en m�me temps, ils ont peu d'effet. Par exemple, k-means en utilisant un r�seau d'apprentissage convolutionnel seront caract�ris�s par le z�ro de solution triviale, et le cluster s'effondrer en une seule entit�.

Dans cet article, les chercheurs ont propos� de FAIR m�thode de classification pour la formation � grande �chelle de bout en r�seau de convolution final. Ils se sont av�r�s obtenir des caract�ristiques visuelles utiles commun avec le cadre du cluster est r�alisable. Le proc�d� repr�sent� sur la figure 1, en alternant entre un descripteur d'image de la grappe et mettre � jour le r�seau en pr�disant le poids de convolution affect�s cluster. Par souci de simplicit�, nous allons nous concentrer sur les k-means, mais vise �galement les autres m�thodes de classification, telles que le regroupement d'it�ration de puissance (PIC) . Le processus de r�utilisation de nombreuses comp�tences communes, la formation et le r�seau de surveillance de convolution standard est tr�s similaire � . Et la m�thode d'auto-surveillance diff�rents, les avantages du regroupement qui ne n�cessitent pas beaucoup d'expertise ne pas besoin d'entrer un signal sp�cifique . Bien que cette m�thode est tr�s simple, mais la m�thode non supervis�e que le projet pr�c�demment sur la classification et la migration des t�ches IMAGEnet � de meilleurs r�sultats.

Figure 1: illustration d'une m�thode propos�e: Deep caract�ristiques regroupement it�rativement, et en utilisant un param�tre de regroupement comme une affectation �tiquette pseudo r�seau convolutionnel � apprendre.

Enfin, en modifiant le protocole, en particulier dans l'ensemble de la formation et convolution de la structure du r�seau, les chercheurs cadre solide ont �t� explor�s. La s�rie d'exp�riences r�sultant Doersch, qui discutent pour faire l'expansion, � savoir l'impact de ces choix sur les performances des m�thodes non supervis�es. Ils ont prouv� que les proc�d�s d�crits ici, l'architecture plus robuste. Fonction peut am�liorer consid�rablement la qualit� et la performance de la migration avec VGG remplac� AlexNet. Plus important encore, ils discutent de l'utilisation de IMAGEnet comme mod�le non supervis� ensemble d'apprentissage. Bien qu'il aide � comprendre l'impact de l'�tiquette sur les performances du r�seau, mais IMAGEnet un ensemble sp�cifique de la distribution d'images � grains fins classification d'images par d�fi: il se compose d'un cours �quilibr�, par exemple, il contient toutes sortes de races. Alternativement, les images peuvent �tre s�lectionn�es au hasard Flickr Thomee et al YFCC100M ensemble de donn�es. Leur m�thode a la meilleure performance dans la formation actuelle de cette distribution de donn�es non d�termin�. Enfin, la classe de qualit� de r�f�rence actuelle se concentre sur la capacit� � l'information de capture dans un r�seau de convolution sans supervision. Les chercheurs ont �galement recommand� de les �valuer sur la recherche d'images de r�f�rence, afin de mesurer leur capacit� � capturer l'information au niveau de l'instance.

Dans cet article, les chercheurs ont fait les contributions suivantes:

Une nouvelle m�thodes d'apprentissage non supervis� pour atteindre fin � convolution extr�mit� du r�seau, cette m�thode peut �tre utilis�e avec des algorithmes de classification standard, tels que k-means, et n�cessite des �tapes suppl�mentaires tr�s peu;
Pour atteindre le niveau de meilleur niveau dans de nombreuses t�ches de migration en cours � l'aide de l'apprentissage non supervis�;
Lorsque la formation de distribution d'image non trait�e, surpassant la technologie la plus avanc�e pr�c�dente;
Discut� le programme d'�valuation en cours comporte une formation non supervis�e.

Papier: Deep Clustering pour l'apprentissage des Unsupervised caract�ristiques visuelles

Adresse Papers: https: //arxiv.org/abs/1807.05520v1

R�sum�: Clustering est une m�thode d'apprentissage non supervis� est largement utilis� et de la recherche en vision par ordinateur, mais presque pas de caract�ristiques visuelles sur de grands ensembles de donn�es � la fin avait �t� adopt� la formation finale. Dans cet article, nous vous proposons une profondeur de regroupement (DeepCluster), qui est un des param�tres du r�seau de neurones apprentissage en commun, avec un acc�s de regroupement distribution de regroupement. profondeur de cluster en utilisant un standard k-means it�re algorithme de regroupement fonction, suivi d'une cession comme un droit de surveillance et de mettre � jour les poids du r�seau. Nous convolution de formation de r�seau de neurones sans supervision sur le regroupement de profondeur appliqu�e IMAGEnet et YFCC100M ces grands ensembles de donn�es. Le mod�le final dans tous les crit�res de performance sont de loin sup�rieurs � la technologie actuelle.

exp�rience

Dans des exp�riences pr�liminaires, l'�quipe de recherche a �tudi� le comportement du regroupement dans la profondeur du processus de formation. Ensuite, sur les crit�res standards de ses m�thodes et les mod�les les plus avanc�s avant de comparer avant, et le regroupement des filtres de profondeur ont �t� �valu�s qualitativement.

visualisation

Figure 3: apr�s l'entr�e RGB d'origine (� gauche) ou d'un filtre de Sobel (� droite), le r�sultat de convolution de la premi�re couche de filtre sur un apprentissage non supervis� AlexNet de IMAGEnet.

Figure 4: Filtre cible de visualisation filtre le premier neuf et l'image active de la sous-image de concentration un million de YFCC100M pour la formation en cluster AlexNet en utilisant une profondeur de l'CONV1 de IMAGEnet, conv3 et conv5. Visualisation du filtre est obtenue par apprentissage une image d'entr�e en r�ponse � l'image en maximisant le filtre cible .

Figure 5: 10000000 YFCC100M sous-images al�atoires � partir de l'avant de l'ensemble d'images 9 activation, par le dernier filtre couche cible de convolution. Haut ligne correspond � une image contenant un filtre sensible � l'objet. La ligne du bas montre les r�sultats plus sensibles � filtre de style. Par exemple, les filtres 119 et 182 sont semble � l'activation de l'effet de la formation de bu�e de fond et la profondeur de champ.

valeur d'activation de classification lin�aire

Tableau 1: IMAGEnet Lieux et un classificateur lin�aire sur une valeur caract�ristique de la convolution de la couche d'activation est utilis� AlexNet. taux de pr�cision de la classification a rapport� plus moyen de 10 types de cultures. D'autres m�thodes de num�rique de Zhang et al .

Pascal VOC 2007

Comparaison des fonctionnalit�s plus r�centes m�thodes d'apprentissage non supervis�e de d�tection et la segmentation de la classification Pascal COV: 2 table. * Indique que Krahenbuhl et al., Utilisation de l'initialisation de d�pendance de donn�es . D'autres m�thodes de production d'une marque num�rique est un .

Route de la soie

Apprenez � conna�tre la Chine

classification non supervis�e d'images pour atteindre bout � bout de cette fa�on! (Avec papier)