Convolution réseau neuronal algorithme de détection de visage

Ces dernières années, l'industrie de l'intelligence artificielle avec le développement rapide de l'apprentissage en profondeur (réseau de neurones artificiels) qui jouent un rôle vital, mais aussi la profondeur de champ des champs de détection des visages d'études, la recherche est utilisée pour identifier l'identité de la personne peut être largement utilisés dans la sécurité publique, le siège social, l'éducation, l'interaction homme-ordinateur et d'autres domaines. Différent des empreintes digitales, iris Aucun dispositif d'acquisition spécifique, le système de reconnaissance de visage n'a besoin que d'un dispositif avec des fonctions de l'appareil photo (tels que les téléphones cellulaires, appareils photo, etc.) peuvent répondre aux besoins, a un avantage unique.

À l'heure actuelle, l'atterrissage technologie de détection de visage a été partout, bien connu. Par exemple, pour assurer la sécurité, la technologie de détection Sydney Cricket Ground a été entièrement couvert de visage, afin d'éviter des comptes faux, la Banque de Chine industrielle et commerciale dans 215 points de vente permettent la détection des visages, pour les mineurs de protection, pare-feu de détection de visage est ajouté au vibrato; « détection des visages » vous aidera à trouver des parents et une autre station de sauvetage. En même temps, l'ère de l'Internet + est venu, la protection de la vie privée et plus l'attention de plus de gens, mais aussi de promouvoir un développement plus rapide de la technologie de détection des visages de recherche.

procédé Smart système de détection sensiblement visage représenté sur la Fig.

Aujourd'hui, la technologie de détection des visages principalement dans les trois catégories suivantes:

(1) Sur la base de Harr caractéristique classificateur cascade Adaboost, le procédé proposé par la co-ALTO P et M J. JONES Dans un premier temps les caractéristiques d'extraction de la masse volumique apparente, seront optimisés avec des données d'apprentissage et la classification est pas claire l'étape suivante de données obtenues extracteur de caractéristiques de précision itérative, puis on l'extrait en cascade en une pluralité d'intensité cascade de précision plus élevé , valide en utilisant l'image intégrale d'extraction de valeur de caractéristique d'image.

(2) un modèle de pièce déformable (Modèle Déformable Parts) sur la base de la partie de face une forme combinée. Le début de chaque composant est calculée pour obtenir un histogramme de direction de gradient, et Support Vector Machine (Surpport Vector Machine) la formation d'un classificateur, et l'opération de classification peut être réalisée par le classificateur.

(3) Détection de visage sur la base de réseau de neurones en utilisant deux réseaux de neurones à convolution pour la détection de visage, le visage de la première étape effectue un positionnement grossier, un positionnement fin de la seconde étape effectue le visage. D'ici 2015, dans le cadre du jeu IMAGEnet chaud, Sachin Yahoo et d'autres en utilisant la méthode ci-dessus pour la détection des visages et l'emplacement, et obtenu de bons résultats. Besoin prétraiter opération après la détection de visage, objet est de réduire l'effet du bruit sur l'image par un certain nombre de techniques de traitement d'image, le contraste, la luminosité et la saturation des modifications appropriées, pour améliorer la précision des résultats.

Tir il y a beaucoup d'incertitudes dans la vie réelle, comme le bruit du matériel de la caméra, l'éclairage et wrap. Afin d'éliminer l'influence des facteurs externes, la nécessité pour les opérations de pré-traitement lié à l'image d'origine. Le prétraitement comprend une compensation de luminosité de l'image de visage, un filtrage de réduction du bruit et l'égalisation d'histogramme. Habituellement, la pré-mise en service sur la base d'une simple image en 2D, les avancées technologiques évoluent progressivement en fonction de l'étape de prétraitement de modélisation 3D.

Elle a atteint un degré d'utilisation de la troisième méthode. Dans ce document, l'ensemble de données LFW (labled visages dans la nature) des jeux de données multiples pour le visage 20000 données d'image formées, et 50.000 itérations venir caffemodel un entièrement connecté,. La figure 2 est une face partielle et les données non-face données,. la figure 3,. la figure 4 est une formation de classificateur dérivé dimensionnement modèle de données, comprenant des données d'annotation du visage ID, le chemin de données et la position de coordonnées de la face, et le modèle a été montré pour avoir de bons résultats de classification. Puis l'utiliser pour détecter les images de visage. Détecter des données d'image devant être utilisé pour la pré-formation pour obtenir de bonnes caractéristiques de propagation caffemodel FIG, peut être déterminée à partir des coordonnées de la surface à détecter.

1 AlexNet convolutif structure de réseau de neurones

Le réseau neuronal convolutif est une couche de convolution générale, la couche mise en commun, des couches entièrement connectées de l'empilement. Structure de réseau de convolution est une couche importante de l'image d'extraction de caractéristique dimensionnelle élevée, correspondant à l'cérébral humain perçu: Dans le procédé de détection de l'image, l'image entière n'a pas été détectée simultanément, mais pour chacune de la première caractéristique d'image de détection locale, et plus opération complète locale de haut niveau pour obtenir l'information mondiale.

La fonction d'activation de la sortie de la couche de convolution RELU faire une cartographie non linéaire. Piscine couche Pool ont également appelé sous-échantillonnage ou sous-échantillonnage, il est principalement utilisé pour réduire la taille de fonction, le nombre des données compressées et des paramètres pour réduire surajustement, augmenter la tolérance aux pannes du modèle, de sorte que le modèle mieux et plus vite vers le plus excellente raccord directionnel.

AlexNet est une application réussie de la structure classique des opérations ci-dessus. Il a été conçu par KRIZHEVSKY A et d'autres et a remporté le titre en 2012 ILSVRC, il taux d'erreur de classification objet est passée de 25,8% à 16,4% avant au moment d'atteindre le niveau optimal. AlexNet grands ensembles de données peuvent être formés et d'un réseau plus profond. Le modèle se compose de 8 couches, cinq couches et trois couches entièrement connectées convolution. La figure 5 est un schéma de configuration d'un réseau AlexNet et paramètres détaillés de chaque couche, Caffe peut utiliser ces paramètres pour définir chaque couche dans la construction du réseau, mais pour la détection des visages, ce qui est une tâche de classification binaire qui nécessite une connectivité complète à la dernière couche le nombre de couches dans une catégorie de tâche désirée, le 1000 d'origine en deux modifications.

6 est extrait en utilisant la fonction de convolution Caffe construit après l'effet, puis d'autres informations utiles peuvent extraire des cellules d'opération de convolution abstraite coordonnées tridimensionnelles supérieure de la figure représente la taille des pixels et de la variation.

2 Caffe Cadre d'apprentissage profond

Caffe est un cadre clair et une étude approfondie efficace, le Dr Jayant vert est diplômé de l'Université de Californie, Berkeley a écrit. Caffe est pure architecture C ++ / CUDA, présente les avantages suivants:

(1) modulaire: Caffe zéro conçu comme un système modulaire, ce qui permet étendu nouveau format de données, la couche de réseau et la perte de fonction.

(2) la représentation et à la segmentation: pas de programmation de code, il suffit d'utiliser le modèle de langue Protocol Buffer réseau personnalisé dans le fichier de configuration. Dans toute forme de graphe acyclique orienté dans l'architecture de réseau de support Caffe. Caffe appellera automatiquement la mémoire appropriée en fonction de la taille du réseau afin d'éviter l'empreinte mémoire excessive, mais peut également basculer entre le CPU et le GPU.

(3) la couverture de test: dans Caffe, chaque module correspondant à une épreuve.

(4) Python et Matlab officiel Caffe a deux versions du compilateur pour la version Python, la mise en uvre finale de l'expérience de vérification compilé sur Python 2.7.

(5) pré-formation Modèle de référence: Pour les projets visuels, Caffe fournit un certain modèle de référence utilisé uniquement pour les zones académiques et non commerciales, la plupart des modèles se trouvent dans le zoo modèle caffe, mais ce n'est pas l'accord de licence BSD open source.

Plus tard, il Jayant équipe de recherche SD a développé une nouvelle génération dans le cadre Facebook Caffe2. 2018 Nian 4 Yue 18 Ri, Facebook open source Caffe2. Accorder plus d'attention à une nouvelle génération de châssis modulaire, du côté mobile, déploiement à grande échelle de l'excellence. Comme tensorflow, Caffe2 en utilisant la bibliothèque C ++ Eigen qui prend en charge l'architecture ARM.

3 Principe de l'algorithme

Les caractéristiques d'entrée du réseau AlexNet, la taille requise de l'image est de 227 × 227 pour l'entrée. Mais la taille du visage des données d'image d'origine ne peut pas être la 227 × 227, une grande, un peu trop petit. Il est nécessaire d'utiliser une pyramide d'images (image Pyramid) conversion multi-échelle, et ensuite à travers le réseau neuronal convolutif graphique caractéristique de propagation dérivé obtenu après application de toutes les fenêtres sur l'image de la valeur de probabilité du visage. Cette méthode est la valeur de probabilité est supérieure à 0,95 du point caractéristique de transformation inverse pour obtenir une image correspondante d'une région, qui est la position de la trame de visage.

Bien que le cadre de coordonnées du visage sont venus, mais trouveront beaucoup pour répondre aux exigences de la fenêtre, il suffit de donner un visage humain pour caractériser la fenêtre la plus probable, par conséquent, il est nécessaire d'utiliser des algorithmes NMS (de suppression non maximale) pour éliminer croix fenêtre répétition et trouver la meilleure position d'un visage, un visage humain pour trouver la meilleure position. 7, le principe de l'algorithme est sensiblement NMS, supposons qu'un cadre et le cadre B en tant que trame candidate comprenant la même face, et cross-over entre les IOU (Intersection-over-Union) est supérieur à 0,8, est considéré le degré élevé de chevauchement, la probabilité d'appartenir à une valeur nominale de P humaine (B)> P (a), le bloc candidat a d'abattage.

La figure 8 est un organigramme de l'algorithme de détection global. Opencv être lue en utilisant la première image détectée, et ensuite effectuer les opérations suivantes.

4 montre les résultats de

La méthode permet la plate-forme de système Linux, le numéro de version est Ubuntu16.04, modèle de carte graphique GPU GTX1080. utilisation de logiciels Caffe + Python 2.7 + OpenCV 3.4.1.

La formation pour des raisons de mémoire, batch_size ensemble à 64 ans, mais pas universelle 128. La figure 9 est le résultat de la formation, chaque après avoir enregistré 100 fois la valeur de la perte, vous pouvez voir la perte Formation: 0,00301 et banc de test: 390,001, essentiellement répondre à la demande, et aucun phénomène surajustement.

La figure 10 est une première donnée d'image de l'image transformée de pyramide, puis l'image après mise à l'échelle de chaque carte de caractéristiques obtenue avant la propagation de la figure thermique. Dans la Fig. 6, la même changement de coordonnées, peut facilement voir le changement d'échelle de l'image, les zones d'image plus sombre représentant que la probabilité correspondante d'appartenance à la valeur supérieure de la figure humaine. Avec l'un changement d'échelle, toutes les positions possibles de face humaine viennent tous à la conclusion qu'un cadrage de visage optimale par un algorithme NMS.

La figure 11 est une taille différente, les différentes données d'image de visage de résolution (ensembles de données d'image provenant du réseau et 300W, comprenant une face frontale, des faces latérales et des faces multiples) du résultat de détection réel, qui peuvent être ainsi détectés trame de visage, que le modèle a de bons résultats de la classification, pour détecter les traits du visage.

5 Conclusion

réaliser la présente détection des visages, un simple et efficace et facile à utiliser le cadre d'apprentissage en profondeur Caffe, pour construire un réseau AlexNet, obtenu grâce à une grande quantité de données de formation de classificateurs de caffemodel, l'algorithme de fenêtre coulissante selon la méthode traditionnelle, et l'utilisation de non-pyramide transforment maxima algorithmes de suppression et utiliser les puissants outils de vision par ordinateur de visage encadré, pour réaliser la détection de convolution globale face du réseau de neurones. Mais l'inconvénient est que le modèle ne peut pas identifier efficacement de multiples visages, la luminosité d'image inférieure ne peut être identifié, l'étape suivante à adopter des données plus étendues et une meilleure optimisation du réseau (comme VGGNet, GoogleNet et ResNet, etc.) pour la formation, pour atteindre plus de détection de visage, la localisation et l'expression des points clés de détection et d'autres fonctions, ou essayer Caffe2 pour la détection de corrélation de face d'extrémité mobile.

références

 . Deng zones Multiplying Chau de mise au point et l'orientation du développement de l'intelligence artificielle Forum populaire, 2018 (2): 22-24.

 La recherche et l'application de Li Wei apprentissage en profondeur en reconnaissance d'image Wuhan: Wuhan University of Technology, 2014.

 Jiang Zhaojun, Cheng Xiao Gang, Peng Yaqin, comme UAV algorithme d'identification d'apprentissage de la profondeur sur la base de la technologie électronique, 2017,43 (7): 84-87.

 . XU Bao Gui "Internet +" stratégie de développement de la technologie de l'intelligence artificielle pour résoudre les télécommunications du monde, 2016 (3): 71-75.

 ALTO P, JONES M J.Robust face temps réel detection.International Journal of Computer Vision, 2004,57 (2): 137-154.

 Jin Song, détection de cible humanoïde Wang Shifeng basé sur HOG élément déformable comporte modèle Applied Optics, 2016,37 (3): 380-384.

 Hu Fahuan, Liu Guoping, Hu Rong Hua, et d'autres la détection hiérarchique basée sur la vision de la machine et le nombril de la qualité d'orange Université de Beijing SVM technologie, 2014 (11): 1615-1620.

 RUSSAKOVSKY O, J DENG, SU H, et al.ImageNet grande reconnaissance échelle visuelle challenge.International Journal of Computer Vision, 2015,115 (3): 211-252.

 . Wei étudie la reconnaissance face à la plate-forme Caffe et la profondeur de l'apprentissage basé à Xi'an: Xi'an Université des sciences et de la technologie électronique, 2015.

 . Wang Qian, Zhang Xian cadre d'apprentissage en profondeur Caffe dans la demande de classification d'images de l'ordinateur moderne, 2016 (5): 72-75.

 Jia Yangqing, SHELHAMER E, J Donahue, et al.Caffe: Architecture convolutionnel pour fonction rapide embedding.arXiv: 1408.5093,2014.

 KRIZHEVSKY A, SUTSKEVER I, HINTON classification G.ImageNet avec networks.Advances neurones convolutionnels profondes dans Neural Information Processing Systems, 2012,25 (2): 1097-1105.

 A Badawi A, CHAO J, LIN J, et al.The AlexNet instant pour le chiffrement homomorphique: HCNN, le premier homomorphic CNN sur des données chiffrées avec GPUs.arXiv: 1811.00778v2,2019.

 . Tingting titre, Xu Xu basé sur l'échantillonnage complet et sous-échantillonner la méthode de classification d'image de logiciel de réseau neuronal de la norme L1 convolutif, 2018,39 (2): 75-80.

 XuShao Wei, une étude approfondie Chen Siyu de méthode de classification de l'image sur la base de la technologie électronique, 2018,44 (6): 122-125.

 . Xie Jun, Chen Wei recherche convolutionnel réseau de neurones sur le logiciel de reconnaissance faciale GUIDE 2018 (1):. 25-27.

Informations sur l'auteur:

Wang Jingbo, Meng Jun

(Laboratoire clé de la technologie de mesure électronique, Université du Nord, Taiyuan 030051, Chine)

Un module de circuit de traitement de signal d'impulsion à haute performance
Précédent
Ce feu court métrage! Tous construit par Vulcan Mountain « à l'intérieur » vidéo
Prochain
aspirateur à main ravaleur H6 expérience sans fil pour commencer: la valeur nominale de la force globale de la performance de la double ligne impoli Dyson v10
teaser de son Shen, "spécialiste maman" Zhang Zhi-Hua a dit: best-seller Bi Shumin roman "virus Corolla" Comment écrire
Pas soeur du héros, frère et soeur est un héros
Shanghai a sonné "Assemblée Hero"! League jeu en ligne League retour du printemps, S10 être loin derrière?
Voler au-dessus ruisseau de montagne Chu rivière et Han Street, impatient de printemps redémarrer Wuhan!
Premier hôpital de la clinique de récupération Wuhan le premier jour, près de 500 patients avec rendez-vous pour voir un médecin
Avant que la voiture est chargée avec des légumes et des communautés de poissons
Entièrement clos bureau climatisé « droit d'ouvrir la voie. »
Deux jours un « demi-cheval » run adulte gens, ils ont même joué avec le rythme de 47 personnes âgées vivant seules
Accélérer les progrès de la construction de la construction de nouveaux projets
Correction automatique du texte chinois transformateur modèle
fonction de compensation programmable avec régulateur de haute efficacité, une haute densité de PSM Module