Chats et chiens de pr�cision Lin�arisation Kaggle Top 2%, vous appris � construire la profondeur dans Keras CNN

Ji-won nouvelle recommandation

Tout le code sont appel�s peuvent �tre t�l�charg�s ici ici: https: //github.com/ypwhs/dogs_vs_cats

La nouvelle 327 yuans Conf�rence Chi Technology iqiyi lien vid�o de lecture, s'il vous pla�t cliquer pour lire l'original.

Cet article est reproduit avec la permission de Udacity connais presque num�ro d'agence, auteur Yangpei Wen, projet d'apprentissage machine � Udacity critique, aimerait remercier!

Chats et chiens

Concours sur un ensemble de donn�es de la Kaggle: Les chiens contre des chats, jeu de formation a 25.000 chats et les chiens chaque moiti�. 12500 jeu de test, aucun �talonnage est un chat ou un chien.

Les �l�ments suivants sont quelques exemples de l'ensemble de la formation:

Les donn�es pr�-traitement

Parce que le nom de fichier est bas� sur notre jeu de donn�es dans un tel type.num.jpg de mani�re nomm�e, comme cat.0.jpg, mais l'utilisation de Keras de ImageDataGenerator besoin de diff�rents types d'images dans les diff�rents sous-dossier, donc nous avons besoin pr�-traiter l'ensemble de donn�es. Ici, nous prenons l'id�e est de cr�er un lien symbolique (lien symbole), de sorte que les avantages ne sont pas copier des photos � nouveau, prendre l'espace inutile.

Nous pouvons voir dans la structure du dossier suivant, train2 il y a deux dossiers, qui sont les chats et les chiens, chaque dossier est de 12500 tableau.

vecteur caract�ristique d'exportation

Pour ce probl�me, l'utilisation du r�seau de pr�-formation est la meilleure chose, et apr�s des tests pr�liminaires, nous avons test� ResNet50 diff�rents r�seaux tels que, mais pas de haut rang, il semble que seulement deux cents Yi, donc nous nous avons besoin d'am�liorer les performances du mod�le. Ainsi, une m�thode efficace est int�gr� diff�rents mod�les pour obtenir de bons r�sultats, �couter les autres. Si vous �tes derri�re un �norme plus notre r�seau enti�rement connect�, vous devez ex�cuter la formation 10 g�n�rations de r�seau dix �norme, et nous ne sommes pas entra�nez couche de convolution, alors ceci est une perte de calcul. On peut donc en vedette la sortie du vecteur d'un certain nombre de r�seaux diff�rents � enregistrer pour la formation ult�rieure, les avantages de le faire est qu'une fois que nous avons sauv� le vecteur de fonction, m�me sur un ordinateur portable ordinaire peut facilement entra�ner.

Pour r�utiliser le code, je pense �crire une fonction qui est n�cessaire, alors nous devrons entrer dans le mod�le de fonction, la taille de l'image d'entr�e, et fonctions pr�traiter Parce que Xception Inception V3 et les besoins de donn�es � d�finir dans la plage (-1, 1), nous utiliserons GlobalAveragePooling2D chaque sortie de la couche d'activation convolution directe moyenne de la figure sinon le fichier de sortie sera tr�s grande, et facile � surajustement. Ensuite, nous d�finissons deux g�n�rateur, utilisez la fonction de model.predict_generator pour exporter les vecteurs de caract�ristiques, et finalement nous avons choisi ResNet50, Xception, Inception V3 trois mod�les (si l'on peut exporter int�resse �galement le vecteur caract�ristique VGG). Chaque mod�le export� est venu depuis longtemps, probablement besoin Aws p2.xlarge minutes dix � vingt minutes . Ces trois mod�les sont en �IMAGEnet Au-dessus de pr�-formation, de sorte que chaque mod�le peut dire � l'exp�rience et les conducteurs �g�s export�s par les trois vecteurs de caract�ristiques, une image peut �tre tr�s r�sum� ce contenu.

H5 fichier export� final est constitu� de trois tableau numpy:

train (25000, 2048)
test (12500, 2048)
�tiquette (25000)

Si vous ne voulez pas que leurs vecteurs de caract�ristiques de l'informatique, o� vous pouvez t�l�charger le fichier directement d�riv�: GitHub presse (

r�f�rences:

ResNet 15.12
Inception v315.12
Xception 16.10

fonction de chargement vecteur

Apr�s apr�s le code ci-dessus, nous obtenons les trois fichier fonction de vecteur, � savoir:

gap_ResNet50.h5
gap_InceptionV3.h5
gap_Xception.h5

Nous devons charger ces vecteurs de caract�ristiques, et les Synth�tise un vecteur caract�ristique, rappelez-vous alors boulevers� X et y, ou apr�s le temps que nous nous validation_split mal tourner. Ici numpy des graines de nombres al�atoires est 2017, afin de vous assurer que tous ceux qui ex�cuter ce code peut �tre �mis en cons�quence.

La construction du mod�le

La construction du mod�le est tr�s simple, abandon droit et le classement tr�s bien.

Nous pouvons �galement visualiser le mod�le:

entra�neur

Apr�s un bon �l�ment de mod�le, nous pouvons former, ici nous avons mis en v�rifier la taille de l'ensemble est de 20%, ce qui signifie que l'ensemble de la formation est de 20000 graphique, jeu de validation de diagramme est 5000.

Nous pouvons voir que le processus de formation tr�s rapidement, en quelques secondes dix sera en mesure de compl�ter la formation, le taux de pr�cision est �galement �lev� sur la validation mis en place avec une pr�cision de 99,6%, ce qui �quivaut � un millier seulement Incorrect Figure 4 , aussi pire que ce que je peux dire.

jeu de test pr�dictif

Apr�s un bon mod�le de formation, nous pouvons pr�dire l'ensemble de test, puis soumis � la Kaggle voir le score final.

Pr�dis que nous utilisons ici une petite astuce, nous allons limiter chaque valeur pr�dite � dans une plage, la raison est tr�s simple, Kaggle crit�res d'�valuation officiels est LogLoss, pour pr�dire l'�chantillon correct, 0,995 et 1 est � peu pr�s la m�me mais les �chantillons d'erreur de pr�diction, l'�cart entre 0 et 0,005 est tr�s grande, est la diff�rence entre 15 et 2. Comment traiter le probl�me de r�f�rence infini, l'expression suivante est d�fini probl�me de classification binaire LogLoss.

$$ \ textrm {LogLoss} = - \ frac {1} {n} \ {sum_ i = 1} ^ n \ left $$

Un autre endroit digne de mention est le nom du fichier de test n'est pas r�gl� � 1, 2, 3 cette ligne, mais dans l'ordre suivant:

Nous avons donc besoin de traiter chaque nom de fichier, puis affect� � la df, et enfin export� sous forme de fichier csv.

r�sum�

On peut voir sur la figure ci-dessus, le mod�le pour les premiers �chantillons dix ont re�u une pr�vision tr�s positive, apr�s avoir soumis � Kaggle, le score est grande, 0,04141, dans le classement mondial peuvent �tre achemin�s � 20/1314. Si nous voulons continuer � optimiser les performances du mod�le peut �tre utilis� des mod�les encore mieux pr�-form�s aux vecteurs de caract�ristiques Derive, ou pr�-formation pour affiner le mod�le (affiner), ou des donn�es am�lior� (augmentation des donn�es) et ainsi de suite.

Composez le code � deux dimensions concernent Udacity, en savoir plus d'information technique

Route de la soie

Apprenez � conna�tre la Chine

Chats et chiens de pr�cision Lin�arisation Kaggle Top 2%, vous appris � construire la profondeur dans Keras CNN