m�thode de classification de l'image en fonction de la profondeur de l'apprentissage

0 introduction

Avec le d�veloppement rapide de l'Internet et des technologies multim�dias, les donn�es d'image montrant une croissance explosive, l'image massif de la fa�on dont le classement efficace et la r�cup�ration est devenue un nouveau d�fi. La classification de l'image est bas�e r�cup�ration d'image, d�tection d'objet et � l'application de reconnaissance, �galement une reconnaissance de motif de mise au point de la recherche et l'apprentissage automatique.

l'apprentissage en profondeur est une m�thode pour caract�riser les donn�es d'apprentissage , son origine dans les r�seaux de neurones, a �t� pendant des d�cennies, mais le d�veloppement �tait lent. Jusqu'en 2012, HOMTPM G et son �quipe ont obtenu d'excellents r�sultats en tr�s grande reconnaissance d'image race IMAGEnet, le top 5 jusqu'� 15% le taux d'erreur de 26%, de la profondeur de l'apprentissage a attir� de plus en plus de chercheurs pr�occupation, entr�e dans une p�riode de d�veloppement rapide.

techniques d'apprentissage profondeur dans le processus de formation du mod�le de r�seau de neurones provoque souvent des probl�mes avaient ajust�. Le soi-disant surajustement (surapprentissage), reportez-vous pour adapter le mod�le de donn�es de jeu de formation tr�s bien, mais il n'a pas �tudi� l'ensemble de donn�es ne sont pas un bon ajustement, la capacit� de g�n�ralisation est faible, qui est l'effet de l'�chantillon �tudi� de bien, �tendue � plus g�n�rale, des manifestations plus universelles �chantillon est pas bon.

Dans cet article, le commun mod�le de r�seau de neurones probl�mes surajustement, aura une incidence sur la fa�on dont les diff�rents bassins de classification d'images ont �t� analys�es et compar�es au r�seau de neurones de convolution propos�e en utilisant une sorte de piscine qui se chevauchent et de la technologie d'abandon afin de faciliter une certaine mesure, le probl�me de surajustement, en mesure de r�pondre � un environnement de donn�es plus complexes.

1 convolution r�seau de neurones

r�seau de neurones convolutionnel (convolutionnel Neural Network, CNN) est l'un des mod�les de r�seau d'apprentissage de la profondeur la plus couramment utilis�e pour analyser la voix, la reconnaissance d'image et d'autres domaines largement utilis�s. Grand r�seau de neurones traditionnel est enti�rement connect� au nombre de param�tres, de temps ou m�me exercice d'entra�nement difficile, alors que la convolution de r�seau de neurones inspir� par les r�seaux de neurones biologiques modernes, reli�s par approche locale, le partage de poids r�duit la complexit� du mod�le, r�duire le poids nombre, ce qui r�duit la difficult� de la formation.

1.1 extraction de caract�ristiques Convolution

L'image est en fait une convolution spatiale lin�aire de filtrage d'image, domaine de fr�quence � filtrer cette m�thodes d'analyse courantes, l'image de filtrage spatial sont souvent utilis�s pour l'am�lioration de l'image. Filtrer avec un filtre convolution convolution noyau, habituellement un quartier, par exemple une taille de matrice 3 � 3.

Proc�d� de convolution est le noyau de convolution et les �l�ments de multiplication s�quentiellement les pixels de l'image correspondant � la nouvelle somme de valeurs de pixel comme la convolution, le noyau de convolution est ensuite traduit le long de l'image originale, continuer � calculer les nouvelles valeurs de pixels, elle couvre l'ensemble de l'image. Proc�d� de convolution repr�sent� sur la figure 1.

La figure 1 est un processus de convolution ne tient pas compte du terme de polarisation, la taille de l'image d'entr�e est de 5 x 5, une taille de noyau de convolution est de 3 � 3, la taille de sortie est convolution 3 x 3. Est un coin proc�d� d'op�ration sp�cifique noyau de convolution commence � partir du coin sup�rieur gauche de l'image d'entr�e est une sommation lin�aire, puis transf�r�es une distance de pixel vers la droite jusqu'� ce que le plus � droite, puis se d�place vers le bas d'un pixel, de fa�on s�quentielle, le volume peut �tre obtenu la sortie du produit. Si vous voulez les m�mes tailles d'entr�e et de sortie, vous pouvez remplir le cercle � 0 � � la taille de 7 � 7 autour de l'image d'origine, et effectue ensuite peut op�ration de convolution.

Bien que l'effet du processus de convolution est tr�s simple, mais il peut produire de nombreux effets diff�rents en fonction de la convolution de l'image de v�rification. Le proc�d� d�crit ci-dessus est essentiellement un effet de convolution associ� � un traitement d'image stricte convolution l�g�rement diff�rente, strictement convolution de la convolution du noyau n�cessite une rotation de 180 � de la premi�re et effectue ensuite une op�ration de corr�lation.

L'op�ration de convolution l'image, en fait, est l'extraction de caract�ristiques d'image, convolution d'image peut �liminer l'influence de la rotation, la traduction et mise � l'�chelle pour apporter . couche Convolution est particuli�rement bonne dans les donn�es d'image caract�ristique extraite, et les diff�rentes couches peut extraire diff�rentes fonctions.

Caract�ristiques de la couche d'extraction de caract�ristiques de r�seau neuronal convolutif par couche, la premi�re caract�ristique a �t� extraite relativement couche inf�rieure, continuent d'extraire la seconde couche est caract�ris�e par un niveau plus �lev� sur la base de la premi�re couche, de m�me, une seconde couche de base de la troisi�me couche les caract�ristiques extraites sont �galement plus complexes. Les fonctionnalit�s plus avanc�es plus capables de refl�ter l'image d'attribut de classe, r�seau de neurones de convolution est pr�cis�ment l'extrait pr�sente une excellente couche d'image par couche par voie de convolution.

1.2 Mise en commun downsampling

Apr�s la convolution d'image produit une pluralit� de carte de fonction, mais les caract�ristiques de l'image originale de la taille figure n'a pas chang� par rapport � la quantit� de donn�es est encore importante, la quantit� de calcul sera grande, afin de simplifier le calcul, les caract�ristiques figure souvent r�alis�es en �chantillonnage. Prise r�seau neuronal convolutif mis en commun (pooling) de mani�re sous-�chantillonnage, le fonds commun des deux mani�res suivantes: la valeur maximale de la piscine (MaxPooling) et moyenne group�e (AvgPooling), les deux pools du proc�d� repr�sent� sur la Figure 2 spectacles.

Dans. La figure 2, la taille de la fen�tre est de 2 � 2, �tape 2. La valeur maximale est choisie dans un groupe de quatre pixels de la fen�tre couvrant de la plus grande valeur �chantillon en tant que valeur de pixel; la mise en commun de la moyenne est une moyenne de quatre pixels dans la fen�tre est calcul�e chaque fois que la fen�tre se d�place de deux pixels vers la droite ou vers le bas la distance, dans lequel 4 � 4 apr�s la mise en commun devient la taille figure 2 � 2.

2 CNN mod�le est con�u pour la classification d'image

R�f�rence bloc ici VGGNet convolutif id�es de conception, un mod�le de r�seau neuronal convolutif, et une couche de convolution couches enti�rement connect�es jointes couche d�crochage, surajustement att�nu� dans une certaine mesure, �galement sur le chemin de l'autre pool et l'impact de la fen�tre sur la mise en commun des r�sultats de la classification ont �t� analys�s et compar�s.

2.1 base de l'architecture r�seau de neurones

Le mod�le de r�seau est repr�sent� dans le tableau 1, un total de 11 couches comprenant convolution quatre couches, la couche mise en commun 3, comprend trois parties. Tout d'abord, la premi�re couche est la couche d'entr�e, l'ensemble de donn�es est utilis� ici, a 10 types d'images en couleur est la taille de 32 x 32, l'espace de couleur RGB, la taille de la couche d'entr�e est de 32 � 32 � 3. La premi�re partie comprend deux couches et une couche de pools de convolution 2, dans lequel le nombre de couches de la figure 2 est une convolution 32;. La seconde partie comprend deux couches et une couche de convolution mis en commun, dans lequel deux couches convolu�es la figure 64 est, une partie dense est reli�e � la troisi�me couche, � savoir la couche de connexion compl�te, la premi�re couche 512 est une couche de neurones de connexion compl�te, est une seconde couche 10, � savoir, divis� en 10 cat�gories, puis r�gression en utilisant Softmax classement. Tableau 1 Conv (3,3) -32 repr�sentatif de la couche est une couche de convolution, et une taille de noyau de convolution est de 3 � 3, caract�ris� en figure 32;. MaxPool (2,2) est le maximum de la piscine, et la fen�tre taille 2 � 2, FC-512, on entend que la couche est compl�tement connect� couches, 152 est le nombre de neurones.

2.2 Analyse des probl�mes

Ce mod�le est utilis� pour le jeu de donn�es de test exp�rimental ICRA-10, par exemple, une partie de l'�chantillon 3 comme repr�sent� sur la figure.

DataSet former le r�seau d'optimisation Rmsprop de liaison-10 ICRA, tout l'ensemble de la formation d'images de formation sur une p�riode (�poque). Apr�s 100 cycles de la formation, les changements de pr�cision du processus de formation, comme indiqu� sur la figure.

Au cours de la p�riode de formation sera calcul�e pour chaque exactitude des donn�es de formation et de l'ensemble de donn�es d'essai, on peut voir avant que les 40 cycles, la pr�cision de jeu de test ainsi que l'augmentation de la pr�cision de l'ensemble de la formation, lorsque les 40 premiers cycles 0,74, apr�s un ensemble de formation de taux pr�cis continue d'augmenter, et la pr�cision de l'ensemble de test � tr�s faible progression, et il y a de l�g�res fluctuations, apr�s 70 cycles, jeu de formation pr�cis �tait continue d'augmenter, alors que le taux de pr�cision de jeu de test est rest� stable, le changement petit. La perte de la fonction de la formation comme illustr� sur la figure.

On peut �galement voir sur la figure. 5, au d�but du jeu de test avec les valeurs perte diminuent avec l'ensemble de la formation, la valeur de consigne de test de la perte apr�s 40 cycles ont oscill� entre de 0,72 � 0,75, et la valeur de la perte de l'ensemble de la formation a �galement �t� maintenue tendance � la baisse, le 80e cycle de jusqu'� 0,50, et enfin chut� � 0,42. La perte de la fonction modifie �galement le mod�le du c�t� a confirm� l'�mergence d'un probl�me plus grave de surajustement.

3 proposition de mod�le de papier

Utiliser la mise en commun qui se chevauchent peuvent att�nuer le probl�me surajustement, l'utilisation de r�gularisation peut �galement r�soudre le probl�me de surajustement. HINTON G technique E abandon propos� en 2012 , ont �t� grandement am�lior�es pour le overfitting r�seau de neurones. d�crochage se r�f�re au processus de formation du r�seau selon une certaine proportion de neurones section en rejetant de mani�re al�atoire, � savoir la couche d'une partie choisie au hasard des neurones de telle sorte que la valeur de sortie est 0, ce qui fera cette partie du neurone pour le prochain s�lectionn� les neurones de couche de sortie connect�s ne contribue pas � rien.

Il a �t� constat� que plusieurs fois, le mod�le de r�seau pour relativement mieux que la valeur maximale de l'effet des cellules de batterie moyenne, en utilisant effet la mise en commun de chevauchement peut �galement am�liorer la pr�cision des p�riodes de formation 100 formation et de test comme indiqu� dans le tableau 2.

Tableau 2 dossiers la plus haute pr�cision pour les diff�rentes structures du r�seau de formation et FIXER de test dans 100 cycles. Le premier type et le second type de mod�le ont �t� utilis�s et la moyenne du pool de non-chevauchement maximum, la piscine peut �tre vu que la valeur maximale de la valeur moyenne de la mise en commun par rapport mieux, mais les deux ont surajustement, le troisi�me type mod�le est la valeur maximale de la piscine se chevauchent, surajustement att�nu� dans une certaine mesure, le quatri�me mod�le utilise la piscine de chevauchement maximum et techniques abandon et ajout� une quantit� appropri�e de r�gularisation peut �tre vu que la pr�cision de l'ensemble de formation beaucoup plus faible dans l'ensemble de test, le taux de pr�cision hausse il y a un grand potentiel. Ainsi, une structure de r�seau optimis�e quatri�me s�lectionn�, la structure de r�seau complet comme indiqu� dans le tableau 3.

Structure de r�seau d'origine de la structure optimis�e ont �t� compar�s � la cinqui�me couche et la neuvi�me couche de chevauchement piscine couche maximale a �t� ajout� 0,25 couche de proportions de d�crochage, apr�s la premi�re couche pleine 11 reli�e � la couche a �t� ajout� couche de d�crochage de 0,5 ratio. En outre, la couche de r�seau et le poids de la couche de connexion de convolution de r�utilisation r�gularisation L2, le facteur de r�gularisation 10,000 seul petit, la pr�cision est encore formation apr�s 300 cycles � l'aide de la m�thode d'apprentissage Rmsprop comme repr�sent� sur la Fig.

Comme on peut le voir sur la figure 6, le processus de formation, la technologie de d�crochage scolaire peut r�soudre le probl�me de surajustement, la pr�cision de l'ensemble de test � augmenter avec la pr�cision de l'ensemble de la formation et le taux de pr�cision de jeu de formation a �t� inf�rieure � l'ensemble de test, 300 mettre en place la pr�cision du cycle de formation est 73,49%, la pr�cision du jeu de l'essai peut atteindre 82,15 pour cent, montrant que la technologie d'abandon scolaire a consid�rablement am�lior� le probl�me surajustement.

section rejet al�atoire d�crochage neuronale lors de l'entra�nement, les donn�es d'apprentissage est une structure de r�seau diff�rent de chaque lot, correspondant � une pluralit� de formation de r�seau, la combinaison d'une pluralit� de diff�rentes structures de r�seau en m�me temps, une pluralit� de formation int�gr�e dans un r�seau, peut effectivement emp�cher surajustement structure unitaire du r�seau.

4 Conclusion

Dans cet article, le mod�le de r�seau de neurones de convolution pour la classification d'image, l'�mergence du r�seau de neurones de convolution traditionnelle, overfitting diff�rentes fa�ons d'utiliser la mise en commun et de la technologie d'abandon pour optimiser la structure du r�seau et d'am�liorer le mod�le de classification d'image performance, d'obtenir de meilleurs r�sultats de la classification sur des ensembles de donn�es 10-ICRA.

r�f�rences

LeCun Y, Y Bengio, l'apprentissage HINTON G.Deep .Nature, 2015,521 (7553): 436-444.

�p�e Xie. Classification de l'image sur la base convolutifs Neural Networks Hefei: Universit� de technologie de 2015.

Simonyan K, Zisserman A.Very r�seaux profonde pour convolutifs reconnaissance d'images � grande �chelle . (04/09/2014) .https: //arxiv.org/abs/1409.1556.

KRIZHEVSKY A, SUTSKEVER I, HINTON G E.ImageNet classification des r�seaux de neurones convolutionnels profonds Conf�rence .International sur Neural Information Processing Systems.Curran Associates, 2012: 1097-1105.

Informations sur l'auteur:

XuShao Wei, Chen Siyu

(Chine Institut de l'aviation de la technologie informatique, Xi'an 710065, Chine)

Route de la soie

Apprenez � conna�tre la Chine

m�thode de classification de l'image en fonction de la profondeur de l'apprentissage