MXNet scientifique auteur / r�alisateur Li Mu Amazon

Auteur: MXNet scientifique auteur / r�alisateur Li Mu Amazon

[New Ji-won EXAMEN �tude approfondie promouvoir le d�veloppement rapide dans de nombreux domaines de la vision informatique, traitement du langage naturel. Dans AI chaud aujourd'hui et la p�nurie de talents, de saisir la profondeur de l'apprentissage � entrer dans le domaine de la recherche et de l'application IA des comp�tences essentielles. Les scientifiques du probl�me classique du directeur Amazon Li Mu sera la vision par ordinateur - classification d'image, par exemple, la main et vous apprendre � la profondeur de construction 0-1 mod�le de r�seau de neurones. Pour de nombreuses questions que rencontrent les d�butants, fournit une introduction compl�te et la d�monstration du code des param�tres de l'environnement, le traitement des donn�es, la formation du mod�le, l'effet de l'accord, y compris le mod�le de la m�thode couramment utilis�e pour obtenir rapidement de bons r�sultats - l'apprentissage de transfert. Alors que nous avons une vue panoramique et la compr�hension de base.

�tude approfondie des temps, la d�pendance approfondissement du r�seau de sorte que la taille de l'ensemble des donn�es de formation que jamais. Academia plus de succ�s g�n�ralement des ensembles de donn�es � grande �chelle autour des probl�mes cognitifs fondamentaux en g�n�ral, il y a des sc�nes � partir d'applications quotidiennes ont somatosensoriel plus loin. Mode et la vie quotidienne des gens, mais l'industrie repose toujours sur la modification de grandes quantit�s de contenu manuel. En introduisant la technologie de l'intelligence artificielle pour am�liorer l'efficacit�, permettre � la machine � la conscience de la mode sera un des sujets int�ressants et utiles.

R�cemment, Alibaba l'image �quipe am�ricaine et le D�partement des textiles et de l'habillement, Hong Kong Polytechnic University ont organis� conjointement 2018FashionAI D�fi mondial, et ouvert dans le jeu FashionAI ensembles de donn�es, est la premi�re n�cessit� � grande �chelle de haute qualit� de vie autour de la � v�tements � de ensemble de donn�es. Cet ensemble de donn�es contient huit donn�es d'image de costumes diff�rents, l'une des t�ches des joueurs est de concevoir un algorithme pour attribuer l'image de v�tements pour faire des jugements pr�cis. Par exemple, lorsque l'image de la jupe de classe, il est divis� en jupes invisibles, courtes, jupes, jupes sept, robes et jupes neuf points et sur un total de six types d'attributs. On peut classer comme une image classique du probl�me, et r�solu par convolution r�seau de neurones.

Les donn�es d'image ensemble de donn�es FashionAI utilis�, tous du fournisseur d'�lectricit� la sc�ne r�elle, d�peint les d�fis du mod�le dans les sc�narios d'application r�elle rencontr�s. Sur les mod�les form�s ensemble de donn�es FashoinAI, � la fois la valeur acad�mique, mais aussi � l'avenir application pratique, l'aide de conception professionnelle pour identifier les �l�ments sur les v�tements. Pour les chercheurs en vision par ordinateur, est un bon choix.

Cet article utilisera MXNet M�thode d'expliquer. MXNet outil open source d'apprentissage en profondeur facile � installer et accessible, il fournit une interface python pour gluon, afin que chacun puisse rapidement mettre en place le r�seau de neurones, et une formation efficace. Ensuite, nous r�viserons la t�che jupe, par exemple, pour montrer comment utiliser gluon � partir de z�ro pour concevoir un simple et bon convolution effet algorithme de r�seau de neurones.

Configuration de l'environnement

Configuration du syst�me

Pour la profondeur de l'apprentissage et de la formation, l'utilisation de la formation acc�l�ration GPU est tr�s important. La quantit� de donn�es concours, mais pas grand, mais seulement le calcul du processeur peut encore faire un train de mod�le pour passer quelques jours! Par cons�quent, nous vous sugg�rons d'utiliser au moins un GPU pour le train. Non �tudiants GPU peuvent se r�f�rer aux deux options suivantes:

Selon votre budget et vos besoins pour commencer un GPU (section jeunesse). Nous avons �crit un GPU � Acheter , pour faciliter l'achat.

Pour ce jeu lou� serveur GPU nuage Amazon. Nous avons �crit un tutoriel AWS ROH , pour vous aider � configurer votre propre serveur cloud.

Apr�s la configuration du mat�riel et des syst�mes, il faut installer et CUDNN Nvidia CUDA fournit, de sorte que notre mat�riel GPU code r�ellement connect�. Cette partie de l'installation est plus facile, la r�f�rence peut guider cette section .

Si vous choisissez d'utiliser le serveur cloud d'Amazon, nous vous recommandons de choisir AMI apprentissage en profondeur dans le choix de l'image du syst�me, l'image associ�e � l'environnement de formation GPU (CUDA, CUDNN) ont �t� configur�s, la n�cessit� de faire une configuration suppl�mentaire.

Installation MXNet

Une fois que vous avez configur� l'environnement, nous pouvons installer un MXNet. Il y a plusieurs fa�ons que vous pouvez installer MXNet, si vous souhaitez installer la version GPU python sur un syst�me Linux, il vous suffit d'effectuer:

L�-dessus. Si le syst�me est install� CUDA8.0, le code peut �tre modifi� correspondant mxnet-CU80. Si certains �tudiants veulent utiliser une autre interfaces linguistiques ou syst�me d'exploitation, ou compiler votre propre � partir du code source, peut �tre install� dans la description officielle des �tapes d'installation en fonction de leurs circonstances trouv�. Dans le prochain tutoriel, nous Utilisation MXNet les interfaces python gluon Nous avons commenc� � mener la course.

traitement des donn�es

acquisition de donn�es

Tout d'abord, nous cr�ons un nouveau r�pertoire de donn�es dans le dossier en cours, puis sur le site officiel r�chauffera l'ensemble de donn�es, l'ensemble de donn�es de formation et un ensemble de donn�es de test � t�l�charger et extraire les donn�es. Les donn�es de jeux peuvent �tre pris du jeu site officiel, mais les �tudiants doivent se connecter et compte Tianchi enregistrer pour t�l�charger apr�s la course. Il existe trois principaux ensembles de donn�es:

fashionAI_attributes_train_20180222.tar est la principale des donn�es de formation, qui contient la mission de formation tagged huit images. Ce tutoriel nous utilisons seulement l'une des t�ches de jupes pour faire des pr�sentations.

fashionAI_attributes_test_a_20180222.tar sont des donn�es pr�visionnelles, l'image qui contient huit untagged mission de formation, notre objectif est de former le mod�le donn� apr�s la pr�diction de la classe sur ces donn�es.

warm_up_train_20180201.tar est une donn�e d'�chauffement, qui contient un ensemble de formation de non-r�p�tition de l'image jupe jeu de formation, il est important de compl�ter les donn�es de formation. Avant autre op�ration, assurez-vous que la structure de r�pertoire en cours est la suivante:

pr�cautions:

D�compressez les donn�es t�l�charg�es avant et apr�s l'extraction occupera chacun environ 8G espace disque dur, nous copier les donn�es dans une structure de r�pertoire plus pratique dans la prochaine collecte de donn�es, donc s'il vous pla�t laisser suffisamment d'espace sur le disque dur.

�tant donn� que les ensembles de donn�es d'image souvent tr�s grande, gluon unique ne sera pas lu en m�moire toutes les images, mais a continu� � lire le fichier image sur votre disque dur pendant l'entra�nement. S'il vous pla�t Les �tudiants qualifi�s seront pr�sents sur les SSD images de disque dur, afin d'�viter la lecture de donn�es devient un goulot d'�tranglement, ce qui entra�ne la vitesse de formation am�lior�e.

Tout d'abord, nous cr�ons un nouveau train_valid r�pertoire des donn�es, comme le catalogue de finition de toutes les donn�es.

L'une des raisons pour lesquelles nous avons choisi jupes donn�es, qui est, les donn�es d'�chauffement et de formation sont donn�es � condition que ses photos de formation, ce qui nous permet d'avoir plus de ressources de formation. Ci-dessous, nous marquons le fichier s�par�ment des donn�es � des donn�es de formation d'�chauffement:

Chaque image et lire le chemin d'�tiquette

Cette image dans les donn�es / r�pertoire train_valid dans la cat�gorie correspondant � son r�pertoire Mots cl�s

La partie sup�rieure de 90% des donn�es d'apprentissage est utilis�e, apr�s 10% des donn�es est utilis�e pour v�rifier

La premi�re �tape, lire chemin de l'image et de la formation des �tiquettes.

V�rifions les donn�es lues. image_path doit correspondre au chemin d'acc�s et le mot-cl� de l'image, o� l'�tiquette est une cha�ne constitu�e d'une pluralit� de n y a, position y des lettres appara�t est le type d'image correspondant.

Comme on peut le voir sur cette figure est la jupe robe, ce qui correspond � la description officielle peut �tre trouv� avec le tag match. Ensuite, nous sommes pr�ts � cataloguer la formation et de test, et la cat�gorie six sous-r�pertoire correspondant robe.

Apr�s avoir ex�cut� la structure de r�pertoire comme suit:

Pour faire face � d'autres types de v�tements, juste pour t�che assign�e aux v�tements de nom de type variable correspondante sur la ligne. Enfin, nous allons copier les images correspondant � leur r�pertoire. Il convient de noter ici que nous avons surpris d�lib�r�ment au hasard l'ordre de l'image, afin d'�viter que l'ensemble de la formation de la situation et jeu test de segmentation apparence in�gale.

l'apprentissage de transfert

Les donn�es pr�ts, alors nous pouvons commencer � concevoir l'algorithme.

La reconnaissance de v�tements peut �tre consid�r�e comme un probl�me classique dans la vision informatique: la classification de l'image. Un exemple typique est donn�es IMAGEnet jeux et concours ILSVRC, dans lequel les joueurs devaient �tre des classes subalternes de 1000 plus de 14 millions de photos algorithme de conception, ils sont une classification pr�cise. La concurrence dans la discrimination d'attribut de l'habillement, on peut consid�rer les diff�rents attributs de v�tements appartenant � diff�rentes cat�gories, remportant ainsi l'algorithme sera en mesure de se r�f�rer � IMAGEnet dans la comp�tition.

Dans la phase pr�liminaire, les organisateurs donnent � chaque type de v�tements fournissent chacun environ un million d'images utilis�es pour la formation, de sorte que la quantit� de donn�es ne suffit pas � nous faire une grande formation en profondeur du mod�le d'apprentissage de z�ro. Mod�le afin que nous puissions emprunter l'id�e de migrer � apprendre, � partir d'un mod�le est form� sur le IMAGEnet ensemble de donn�es, un peu pour le transformer en � mieux conna�tre les v�tements, � les. Comme on le voit ci-dessous, la gauche est le r�seau form� sur le plateau de donn�es IMAGEnet, nous allons � droite participe au r�seau, � la fois compatible avec la structure principale du r�seau, afin que nous puissions �tre les principaux poids du r�seau sont copi�s. Parce que les deux r�seaux ne sont pas la m�me classification et le nombre de couche de sortie de sens, nous devons red�finir la couche de sortie et l'initialisation al�atoire.

Sur les ensembles de donn�es IMAGEnet, nous utilisons principalement convolution r�seau de neurones, et au cours des derni�res ann�es, il y a eu beaucoup de diff�rentes architectures de r�seau. gluon offres officielles beaucoup de diff�rents convolution du mod�le de r�seau de neurones pr�-form�s, nous avons choisi un meilleur mod�le de resnet50_v2 effet dans ce jeu comme point de d�part la formation. A propos de la migration pour en savoir plus en d�tail peut se r�f�rer � gluon r�glage fin tutoriel chinois: apprendre en affinant � Migrate a.

Tout d'abord, nous devons �tre pr�ts � utiliser l'environnement.

Maintenant, nous pouvons importer le mod�le de resnet50_v2 pr�d�cisionnel form�. Si cela est la premi�re fois mod�le import�, le code prendra un certain temps pour t�l�charger un mod�le de pr�-formation.

Une formation sur la sortie de mod�le 1000 est de dimension IMAGEnet, nous devons d�finir un nouveau r�seau resnet50_v2,

Juste avant le poids de la couche de sortie sont pr�-form�s

La figure 6 est la dimension de la sortie, et la couche de sortie du poids initialisation al�atoire

Apr�s cela, nous pouvons choisir en fonction de l'environnement de la machine sp�cifique sera enregistr�e sur le CPU ou GPU r�seau.

La derni�re ligne du code ci-dessus, nous hybrident appelons, qui est l'une des principales caract�ristiques du gluon, le mod�le peut imperatives construit la programmation dans la mise en uvre de la plupart du tour op�rationnel dans une symbolique r�alis�e, afin d'une part d'am�liorer l'efficacit� du d�veloppement , mais aussi pour assurer la vitesse. A propos de hybrident plus en d�tail peut se r�f�rer au tutoriel gluon chinois Hybridation: plus rapide et une meilleure greffe a.

Ensuite, nous d�finissons plusieurs fonctions auxiliaires, qui sont

Computing AveragePrecision, les r�sultats officiels des crit�res d'�valuation.

jeu de formation et de validation des set images augment�rent fonctions.

Apr�s chaque tour de la fonction de formation �valu�e sur un ensemble de test

Les photos de d�tail augment�e peuvent se r�f�rer � l'image de tutoriel chinois Augment�e a.

D�finissons certains param�tres de formation. Notez que dans l'�tude de la migration, nous pensons g�n�ralement des param�tres pour l'ensemble du r�seau n'a pas besoin d'�tre change consid�rablement, tr�s bien mise au point sur les donn�es de formation, donc nous taux d'apprentissage est r�gl� sur une valeur relativement faible, telle que 0,001.

Pour faciliter la pr�sentation, nous avons seulement deux cycles de formation, montrant le processus.

Ensuite, nous pouvons lire les donn�es. Apr�s avoir termin� avant que les donn�es peuvent �tre lues � l'aide de l'interface gluon.data.DataLoader

La fonction de perte suivante et algorithme d'optimisation, nous d�finissons le r�seau. Le concours, nous utilisons la descente de gradient stochastique peut obtenir de meilleurs r�sultats. Classification g�n�ralement utilis� en fonction de la perte d'entropie crois�e, en outre, nous sommes �galement pr�occup�s par les indicateurs, � l'exception de la pr�cision mAP du mod�le.

Jusqu'� pr�sent, tout est pr�t, nous pouvons commencer la formation en place! Encore une fois, voici une d�monstration rapide, nous ne faisons deux cycles, afin d'obtenir de meilleurs r�sultats de la formation, s'il vous pla�t rappelez-vous le grand ton des �poques.

La formation est termin�e, que diriez-vous de l'effet? Nous pouvons directement prendre quelques photos du test indiqu�, comparer l'il humain pour voir le type de pr�diction est exacte.

On peut voir, bien que seulement deux formations, mais notre mod�le sur le spectacle quelques images ont fait le bon pronostic.

r�sum�

Jusqu'� pr�sent, nous avons montr� que des exemples de code pour faire des pr�visions de r�duction des donn�es. Vous pouvez commencer � partir d'ici, en am�liorant constamment le code, � commencer vers de meilleurs r�sultats. FashoinAI sugg�re �galement que vous allez t�l�charger l'ensemble de donn�es, l'utilisation directe de la pratique ici sont les comp�tences acquises. Ci-dessous, nous donnons quelques orientations possibles pour l'am�lioration, vous pouvez commencer avec eux:

1. r�gler les param�tres , Tels que le taux d'apprentissage, la taille des lots, le nombre de cycles de formation et ainsi de suite.

Il y a une influence mutuelle entre les param�tres, tels que le taux d'apprentissage plus petit pourrait signifier plusieurs cycles.
Il a recommand� que les r�sultats sur l'ensemble de validation des param�tres s�lectionn�s
param�tres optimaux de donn�es diff�rentes peuvent �tre diff�rentes, il est recommand� de s�lectionner les param�tres optimaux correspondants pour chaque t�che
2. S�lectionnez un mod�le .

En plus du mod�le ResNet, gluon offre �galement de nombreux autres mod�les de r�seau de neurones de convolution populaire peut �tre s�lectionn� en fonction de la documentation officielle de leur performance sur le IMAGEnet.
Dans le cas des ressources informatiques limit�es, vous pouvez envisager d'utiliser beaucoup de m�moire est plus petit, plus rapide mod�le de vitesse de calcul.
3 Une image plus compl�te augment�e

Vous pouvez envisager d'ajouter plus de manipulation d'images lors de la formation. Fonction image.CreateAugmenter Il y a beaucoup d'autres param�tres, respectivement, voudra peut-�tre essayer l'effet.
Lorsque la pr�diction des images pr�dites faire diff�rentes cultures / parage et �taient pr�vues pour durer une valeur pr�dictive moyenne de la derni�re r�ponse, vous pouvez obtenir des r�sultats plus robustes.

Les liens de r�f�rence:

GPU Guide d'achat

AWS pour ex�cuter le tutoriel

CUDA mont�

MXNet mont�

Acquisition de donn�es concordantes https://tianchi.aliyun.com/m.html#/competition/231649

r�glage fin tutoriel

Hybridation: plus rapide et une meilleure greffe

Photo augment�e

[] Joignez-vous � la communaut�

Ji-won nouvelles technologies AI + industrie du recrutement communautaire, a accueilli les �tudiants + industrie de la technologie AI a atterri int�r�t, plus Little Helper Micro Signal: aiera2015_1 dans le groupe, si elle est approuv�e seront invit�s dans le groupe, assurez-vous de modifier le groupe apr�s avoir rejoint la communaut� remarques (nom - soci�t� - emploi, groupe professionnel d'examen plus rigoureux, s'il vous pla�t comprendre).

Route de la soie

Apprenez � conna�tre la Chine

auteur MXNet Li Mu: faire la classification des images, des tutoriels + code avec l'apprentissage en profondeur

Configuration de l'environnement

traitement des donn�es

l'apprentissage de transfert

r�sum�