méthode de classification de l'image en fonction de la profondeur de l'apprentissage

0 introduction

Avec le développement rapide de l'Internet et des technologies multimédias, les données d'image montrant une croissance explosive, l'image massif de la façon dont le classement efficace et la récupération est devenue un nouveau défi. La classification de l'image est basée récupération d'image, détection d'objet et à l'application de reconnaissance, également une reconnaissance de motif de mise au point de la recherche et l'apprentissage automatique.

l'apprentissage en profondeur est une méthode pour caractériser les données d'apprentissage , son origine dans les réseaux de neurones, a été pendant des décennies, mais le développement était lent. Jusqu'en 2012, HOMTPM G et son équipe ont obtenu d'excellents résultats en très grande reconnaissance d'image race IMAGEnet, le top 5 jusqu'à 15% le taux d'erreur de 26%, de la profondeur de l'apprentissage a attiré de plus en plus de chercheurs préoccupation, entrée dans une période de développement rapide.

techniques d'apprentissage profondeur dans le processus de formation du modèle de réseau de neurones provoque souvent des problèmes avaient ajusté. Le soi-disant surajustement (surapprentissage), reportez-vous pour adapter le modèle de données de jeu de formation très bien, mais il n'a pas étudié l'ensemble de données ne sont pas un bon ajustement, la capacité de généralisation est faible, qui est l'effet de l'échantillon étudié de bien, étendue à plus générale, des manifestations plus universelles échantillon est pas bon.

Dans cet article, le commun modèle de réseau de neurones problèmes surajustement, aura une incidence sur la façon dont les différents bassins de classification d'images ont été analysées et comparées au réseau de neurones de convolution proposée en utilisant une sorte de piscine qui se chevauchent et de la technologie d'abandon afin de faciliter une certaine mesure, le problème de surajustement, en mesure de répondre à un environnement de données plus complexes.

1 convolution réseau de neurones

réseau de neurones convolutionnel (convolutionnel Neural Network, CNN) est l'un des modèles de réseau d'apprentissage de la profondeur la plus couramment utilisée pour analyser la voix, la reconnaissance d'image et d'autres domaines largement utilisés. Grand réseau de neurones traditionnel est entièrement connecté au nombre de paramètres, de temps ou même exercice d'entraînement difficile, alors que la convolution de réseau de neurones inspiré par les réseaux de neurones biologiques modernes, reliés par approche locale, le partage de poids réduit la complexité du modèle, réduire le poids nombre, ce qui réduit la difficulté de la formation.

1.1 extraction de caractéristiques Convolution

L'image est en fait une convolution spatiale linéaire de filtrage d'image, domaine de fréquence à filtrer cette méthodes d'analyse courantes, l'image de filtrage spatial sont souvent utilisés pour l'amélioration de l'image. Filtrer avec un filtre convolution convolution noyau, habituellement un quartier, par exemple une taille de matrice 3 × 3.

Procédé de convolution est le noyau de convolution et les éléments de multiplication séquentiellement les pixels de l'image correspondant à la nouvelle somme de valeurs de pixel comme la convolution, le noyau de convolution est ensuite traduit le long de l'image originale, continuer à calculer les nouvelles valeurs de pixels, elle couvre l'ensemble de l'image. Procédé de convolution représenté sur la figure 1.

La figure 1 est un processus de convolution ne tient pas compte du terme de polarisation, la taille de l'image d'entrée est de 5 x 5, une taille de noyau de convolution est de 3 × 3, la taille de sortie est convolution 3 x 3. Est un coin procédé d'opération spécifique noyau de convolution commence à partir du coin supérieur gauche de l'image d'entrée est une sommation linéaire, puis transférées une distance de pixel vers la droite jusqu'à ce que le plus à droite, puis se déplace vers le bas d'un pixel, de façon séquentielle, le volume peut être obtenu la sortie du produit. Si vous voulez les mêmes tailles d'entrée et de sortie, vous pouvez remplir le cercle « 0 » à la taille de 7 × 7 autour de l'image d'origine, et effectue ensuite peut opération de convolution.

Bien que l'effet du processus de convolution est très simple, mais il peut produire de nombreux effets différents en fonction de la convolution de l'image de vérification. Le procédé décrit ci-dessus est essentiellement un effet de convolution associé à un traitement d'image stricte convolution légèrement différente, strictement convolution de la convolution du noyau nécessite une rotation de 180 ° de la première et effectue ensuite une opération de corrélation.

L'opération de convolution l'image, en fait, est l'extraction de caractéristiques d'image, convolution d'image peut éliminer l'influence de la rotation, la traduction et mise à l'échelle pour apporter . couche Convolution est particulièrement bonne dans les données d'image caractéristique extraite, et les différentes couches peut extraire différentes fonctions.

Caractéristiques de la couche d'extraction de caractéristiques de réseau neuronal convolutif par couche, la première caractéristique a été extraite relativement couche inférieure, continuent d'extraire la seconde couche est caractérisée par un niveau plus élevé sur la base de la première couche, de même, une seconde couche de base de la troisième couche les caractéristiques extraites sont également plus complexes. Les fonctionnalités plus avancées plus capables de refléter l'image d'attribut de classe, réseau de neurones de convolution est précisément l'extrait présente une excellente couche d'image par couche par voie de convolution.

1.2 Mise en commun downsampling

Après la convolution d'image produit une pluralité de carte de fonction, mais les caractéristiques de l'image originale de la taille figure n'a pas changé par rapport à la quantité de données est encore importante, la quantité de calcul sera grande, afin de simplifier le calcul, les caractéristiques figure souvent réalisées en échantillonnage. Prise réseau neuronal convolutif mis en commun (pooling) de manière sous-échantillonnage, le fonds commun des deux manières suivantes: la valeur maximale de la piscine (MaxPooling) et moyenne groupée (AvgPooling), les deux pools du procédé représenté sur la Figure 2 spectacles.

Dans. La figure 2, la taille de la fenêtre est de 2 × 2, étape 2. La valeur maximale est choisie dans un groupe de quatre pixels de la fenêtre couvrant de la plus grande valeur échantillon en tant que valeur de pixel; la mise en commun de la moyenne est une moyenne de quatre pixels dans la fenêtre est calculée chaque fois que la fenêtre se déplace de deux pixels vers la droite ou vers le bas la distance, dans lequel 4 × 4 après la mise en commun devient la taille figure 2 × 2.

2 CNN modèle est conçu pour la classification d'image

Référence bloc ici VGGNet convolutif idées de conception, un modèle de réseau neuronal convolutif, et une couche de convolution couches entièrement connectées jointes couche décrochage, surajustement atténué dans une certaine mesure, également sur le chemin de l'autre pool et l'impact de la fenêtre sur la mise en commun des résultats de la classification ont été analysés et comparés.

2.1 base de l'architecture réseau de neurones

Le modèle de réseau est représenté dans le tableau 1, un total de 11 couches comprenant convolution quatre couches, la couche mise en commun 3, comprend trois parties. Tout d'abord, la première couche est la couche d'entrée, l'ensemble de données est utilisé ici, a 10 types d'images en couleur est la taille de 32 x 32, l'espace de couleur RGB, la taille de la couche d'entrée est de 32 × 32 × 3. La première partie comprend deux couches et une couche de pools de convolution 2, dans lequel le nombre de couches de la figure 2 est une convolution 32;. La seconde partie comprend deux couches et une couche de convolution mis en commun, dans lequel deux couches convoluées la figure 64 est, une partie dense est reliée à la troisième couche, à savoir la couche de connexion complète, la première couche 512 est une couche de neurones de connexion complète, est une seconde couche 10, à savoir, divisé en 10 catégories, puis régression en utilisant Softmax classement. Tableau 1 Conv (3,3) -32 représentatif de la couche est une couche de convolution, et une taille de noyau de convolution est de 3 × 3, caractérisé en figure 32;. MaxPool (2,2) est le maximum de la piscine, et la fenêtre taille 2 × 2, FC-512, on entend que la couche est complètement connecté couches, 152 est le nombre de neurones.

2.2 Analyse des problèmes

Ce modèle est utilisé pour le jeu de données de test expérimental ICRA-10, par exemple, une partie de l'échantillon 3 comme représenté sur la figure.

DataSet former le réseau d'optimisation Rmsprop de liaison-10 ICRA, tout l'ensemble de la formation d'images de formation sur une période (époque). Après 100 cycles de la formation, les changements de précision du processus de formation, comme indiqué sur la figure.

Au cours de la période de formation sera calculée pour chaque exactitude des données de formation et de l'ensemble de données d'essai, on peut voir avant que les 40 cycles, la précision de jeu de test ainsi que l'augmentation de la précision de l'ensemble de la formation, lorsque les 40 premiers cycles 0,74, après un ensemble de formation de taux précis continue d'augmenter, et la précision de l'ensemble de test à très faible progression, et il y a de légères fluctuations, après 70 cycles, jeu de formation précis était continue d'augmenter, alors que le taux de précision de jeu de test est resté stable, le changement petit. La perte de la fonction de la formation comme illustré sur la figure.

On peut également voir sur la figure. 5, au début du jeu de test avec les valeurs perte diminuent avec l'ensemble de la formation, la valeur de consigne de test de la perte après 40 cycles ont oscillé entre de 0,72 à 0,75, et la valeur de la perte de l'ensemble de la formation a également été maintenue tendance à la baisse, le 80e cycle de jusqu'à 0,50, et enfin chuté à 0,42. La perte de la fonction modifie également le modèle du côté a confirmé l'émergence d'un problème plus grave de surajustement.

3 proposition de modèle de papier

Utiliser la mise en commun qui se chevauchent peuvent atténuer le problème surajustement, l'utilisation de régularisation peut également résoudre le problème de surajustement. HINTON G technique E abandon proposé en 2012 , ont été grandement améliorées pour le overfitting réseau de neurones. décrochage se réfère au processus de formation du réseau selon une certaine proportion de neurones section en rejetant de manière aléatoire, à savoir la couche d'une partie choisie au hasard des neurones de telle sorte que la valeur de sortie est 0, ce qui fera cette partie du neurone pour le prochain sélectionné les neurones de couche de sortie connectés ne contribue pas à rien.

Il a été constaté que plusieurs fois, le modèle de réseau pour relativement mieux que la valeur maximale de l'effet des cellules de batterie moyenne, en utilisant effet la mise en commun de chevauchement peut également améliorer la précision des périodes de formation 100 formation et de test comme indiqué dans le tableau 2.

Tableau 2 dossiers la plus haute précision pour les différentes structures du réseau de formation et FIXER de test dans 100 cycles. Le premier type et le second type de modèle ont été utilisés et la moyenne du pool de non-chevauchement maximum, la piscine peut être vu que la valeur maximale de la valeur moyenne de la mise en commun par rapport mieux, mais les deux ont surajustement, le troisième type modèle est la valeur maximale de la piscine se chevauchent, surajustement atténué dans une certaine mesure, le quatrième modèle utilise la piscine de chevauchement maximum et techniques abandon et ajouté une quantité appropriée de régularisation peut être vu que la précision de l'ensemble de formation beaucoup plus faible dans l'ensemble de test, le taux de précision hausse il y a un grand potentiel. Ainsi, une structure de réseau optimisée quatrième sélectionné, la structure de réseau complet comme indiqué dans le tableau 3.

Structure de réseau d'origine de la structure optimisée ont été comparés à la cinquième couche et la neuvième couche de chevauchement piscine couche maximale a été ajouté 0,25 couche de proportions de décrochage, après la première couche pleine 11 reliée à la couche a été ajouté couche de décrochage de 0,5 ratio. En outre, la couche de réseau et le poids de la couche de connexion de convolution de réutilisation régularisation L2, le facteur de régularisation 10,000 seul petit, la précision est encore formation après 300 cycles à l'aide de la méthode d'apprentissage Rmsprop comme représenté sur la Fig.

Comme on peut le voir sur la figure 6, le processus de formation, la technologie de décrochage scolaire peut résoudre le problème de surajustement, la précision de l'ensemble de test à augmenter avec la précision de l'ensemble de la formation et le taux de précision de jeu de formation a été inférieure à l'ensemble de test, 300 mettre en place la précision du cycle de formation est 73,49%, la précision du jeu de l'essai peut atteindre 82,15 pour cent, montrant que la technologie d'abandon scolaire a considérablement amélioré le problème surajustement.

section rejet aléatoire décrochage neuronale lors de l'entraînement, les données d'apprentissage est une structure de réseau différent de chaque lot, correspondant à une pluralité de formation de réseau, la combinaison d'une pluralité de différentes structures de réseau en même temps, une pluralité de formation intégrée dans un réseau, peut effectivement empêcher surajustement structure unitaire du réseau.

4 Conclusion

Dans cet article, le modèle de réseau de neurones de convolution pour la classification d'image, l'émergence du réseau de neurones de convolution traditionnelle, overfitting différentes façons d'utiliser la mise en commun et de la technologie d'abandon pour optimiser la structure du réseau et d'améliorer le modèle de classification d'image performance, d'obtenir de meilleurs résultats de la classification sur des ensembles de données 10-ICRA.

références

LeCun Y, Y Bengio, l'apprentissage HINTON G.Deep .Nature, 2015,521 (7553): 436-444.

épée Xie. Classification de l'image sur la base convolutifs Neural Networks Hefei: Université de technologie de 2015.

Simonyan K, Zisserman A.Very réseaux profonde pour convolutifs reconnaissance d'images à grande échelle . (04/09/2014) .https: //arxiv.org/abs/1409.1556.

KRIZHEVSKY A, SUTSKEVER I, HINTON G E.ImageNet classification des réseaux de neurones convolutionnels profonds Conférence .International sur Neural Information Processing Systems.Curran Associates, 2012: 1097-1105.

Informations sur l'auteur:

XuShao Wei, Chen Siyu

(Chine Institut de l'aviation de la technologie informatique, Xi'an 710065, Chine)

He he he ...... ils sont 07 hommes rapides
Précédent
[Hebdomadaire] Ali acquisition de la plate-forme logicielle de collaboration entre l'industrie Internet Teambition; octets outils de productivité d'acquisition de battement « rideau »
Prochain
expéditeur édition spéciale de l'exposition 1993 « épicerie douleur » de la situation face en cartographiant la vie réelle
Lourd | Microsoft pour développer la puce pour la prochaine génération AI HoloLens, voix reconnaissable et de l'image
Maison du Conseil royal: montagnes pittoresques et les rivières, répondent mieux Chongqing
De nombreux jeux Raiders avec vous pendant l'été, « Wang portable PLUS » Vol.9 liste
« Bowen série » EVDK DDR3 notes de débogage de démonstration (sur la question de VREF)
Le bouche à oreille fonctionne « Carnaval » focus social communiqué aujourd'hui derrière l'affaire d'agression sexuelle de manquement au devoir
l'analyse des résultats du deuxième trimestre de Google: Dans l'ensemble du bien, mais aussi de résoudre le problème de l'amende
Enregistrement des balles romantiques manuel et du verre, qui est exclusivement un gars dur | titane espaces vides
« L'industrie des points chauds » pour briser le monopole étranger, la National Science des puces micro-contrôleur aider notre industrie SSD dans un nouveau voyage
Les services de soutien d'optimisation mise à niveau entouré de montagnes fort « Renouveau »
CUP a promis « un interrupteur à clé » à elle! Pas plus inquiet au sujet de « Prendre une fraude »
cadeau de Nouvel An petite amie comment choisir? professeur de vacances pour vous donner Weapon