Convolution r�seau neuronal algorithme de d�tection de visage

Ces derni�res ann�es, l'industrie de l'intelligence artificielle avec le d�veloppement rapide de l'apprentissage en profondeur (r�seau de neurones artificiels) qui jouent un r�le vital, mais aussi la profondeur de champ des champs de d�tection des visages d'�tudes, la recherche est utilis�e pour identifier l'identit� de la personne peut �tre largement utilis�s dans la s�curit� publique, le si�ge social, l'�ducation, l'interaction homme-ordinateur et d'autres domaines. Diff�rent des empreintes digitales, iris Aucun dispositif d'acquisition sp�cifique, le syst�me de reconnaissance de visage n'a besoin que d'un dispositif avec des fonctions de l'appareil photo (tels que les t�l�phones cellulaires, appareils photo, etc.) peuvent r�pondre aux besoins, a un avantage unique.

� l'heure actuelle, l'atterrissage technologie de d�tection de visage a �t� partout, bien connu. Par exemple, pour assurer la s�curit�, la technologie de d�tection Sydney Cricket Ground a �t� enti�rement couvert de visage, afin d'�viter des comptes faux, la Banque de Chine industrielle et commerciale dans 215 points de vente permettent la d�tection des visages, pour les mineurs de protection, pare-feu de d�tection de visage est ajout� au vibrato; � d�tection des visages � vous aidera � trouver des parents et une autre station de sauvetage. En m�me temps, l'�re de l'Internet + est venu, la protection de la vie priv�e et plus l'attention de plus de gens, mais aussi de promouvoir un d�veloppement plus rapide de la technologie de d�tection des visages de recherche.

proc�d� Smart syst�me de d�tection sensiblement visage repr�sent� sur la Fig.

Aujourd'hui, la technologie de d�tection des visages principalement dans les trois cat�gories suivantes:

(1) Sur la base de Harr caract�ristique classificateur cascade Adaboost, le proc�d� propos� par la co-ALTO P et M J. JONES Dans un premier temps les caract�ristiques d'extraction de la masse volumique apparente, seront optimis�s avec des donn�es d'apprentissage et la classification est pas claire l'�tape suivante de donn�es obtenues extracteur de caract�ristiques de pr�cision it�rative, puis on l'extrait en cascade en une pluralit� d'intensit� cascade de pr�cision plus �lev� , valide en utilisant l'image int�grale d'extraction de valeur de caract�ristique d'image.

(2) un mod�le de pi�ce d�formable (Mod�le D�formable Parts) sur la base de la partie de face une forme combin�e. Le d�but de chaque composant est calcul�e pour obtenir un histogramme de direction de gradient, et Support Vector Machine (Surpport Vector Machine) la formation d'un classificateur, et l'op�ration de classification peut �tre r�alis�e par le classificateur.

(3) D�tection de visage sur la base de r�seau de neurones en utilisant deux r�seaux de neurones � convolution pour la d�tection de visage, le visage de la premi�re �tape effectue un positionnement grossier, un positionnement fin de la seconde �tape effectue le visage. D'ici 2015, dans le cadre du jeu IMAGEnet chaud, Sachin Yahoo et d'autres en utilisant la m�thode ci-dessus pour la d�tection des visages et l'emplacement, et obtenu de bons r�sultats. Besoin pr�traiter op�ration apr�s la d�tection de visage, objet est de r�duire l'effet du bruit sur l'image par un certain nombre de techniques de traitement d'image, le contraste, la luminosit� et la saturation des modifications appropri�es, pour am�liorer la pr�cision des r�sultats.

Tir il y a beaucoup d'incertitudes dans la vie r�elle, comme le bruit du mat�riel de la cam�ra, l'�clairage et wrap. Afin d'�liminer l'influence des facteurs externes, la n�cessit� pour les op�rations de pr�-traitement li� � l'image d'origine. Le pr�traitement comprend une compensation de luminosit� de l'image de visage, un filtrage de r�duction du bruit et l'�galisation d'histogramme. Habituellement, la pr�-mise en service sur la base d'une simple image en 2D, les avanc�es technologiques �voluent progressivement en fonction de l'�tape de pr�traitement de mod�lisation 3D.

Elle a atteint un degr� d'utilisation de la troisi�me m�thode. Dans ce document, l'ensemble de donn�es LFW (labled visages dans la nature) des jeux de donn�es multiples pour le visage 20000 donn�es d'image form�es, et 50.000 it�rations venir caffemodel un enti�rement connect�,. La figure 2 est une face partielle et les donn�es non-face donn�es,. la figure 3,. la figure 4 est une formation de classificateur d�riv� dimensionnement mod�le de donn�es, comprenant des donn�es d'annotation du visage ID, le chemin de donn�es et la position de coordonn�es de la face, et le mod�le a �t� montr� pour avoir de bons r�sultats de classification. Puis l'utiliser pour d�tecter les images de visage. D�tecter des donn�es d'image devant �tre utilis� pour la pr�-formation pour obtenir de bonnes caract�ristiques de propagation caffemodel FIG, peut �tre d�termin�e � partir des coordonn�es de la surface � d�tecter.

1 AlexNet convolutif structure de r�seau de neurones

Le r�seau neuronal convolutif est une couche de convolution g�n�rale, la couche mise en commun, des couches enti�rement connect�es de l'empilement. Structure de r�seau de convolution est une couche importante de l'image d'extraction de caract�ristique dimensionnelle �lev�e, correspondant � l'c�r�bral humain per�u: Dans le proc�d� de d�tection de l'image, l'image enti�re n'a pas �t� d�tect�e simultan�ment, mais pour chacune de la premi�re caract�ristique d'image de d�tection locale, et plus op�ration compl�te locale de haut niveau pour obtenir l'information mondiale.

La fonction d'activation de la sortie de la couche de convolution RELU faire une cartographie non lin�aire. Piscine couche Pool ont �galement appel� sous-�chantillonnage ou sous-�chantillonnage, il est principalement utilis� pour r�duire la taille de fonction, le nombre des donn�es compress�es et des param�tres pour r�duire surajustement, augmenter la tol�rance aux pannes du mod�le, de sorte que le mod�le mieux et plus vite vers le plus excellente raccord directionnel.

AlexNet est une application r�ussie de la structure classique des op�rations ci-dessus. Il a �t� con�u par KRIZHEVSKY A et d'autres et a remport� le titre en 2012 ILSVRC, il taux d'erreur de classification objet est pass�e de 25,8% � 16,4% avant au moment d'atteindre le niveau optimal. AlexNet grands ensembles de donn�es peuvent �tre form�s et d'un r�seau plus profond. Le mod�le se compose de 8 couches, cinq couches et trois couches enti�rement connect�es convolution. La figure 5 est un sch�ma de configuration d'un r�seau AlexNet et param�tres d�taill�s de chaque couche, Caffe peut utiliser ces param�tres pour d�finir chaque couche dans la construction du r�seau, mais pour la d�tection des visages, ce qui est une t�che de classification binaire qui n�cessite une connectivit� compl�te � la derni�re couche le nombre de couches dans une cat�gorie de t�che d�sir�e, le 1000 d'origine en deux modifications.

6 est extrait en utilisant la fonction de convolution Caffe construit apr�s l'effet, puis d'autres informations utiles peuvent extraire des cellules d'op�ration de convolution abstraite coordonn�es tridimensionnelles sup�rieure de la figure repr�sente la taille des pixels et de la variation.

2 Caffe Cadre d'apprentissage profond

Caffe est un cadre clair et une �tude approfondie efficace, le Dr Jayant vert est dipl�m� de l'Universit� de Californie, Berkeley a �crit. Caffe est pure architecture C ++ / CUDA, pr�sente les avantages suivants:

(1) modulaire: Caffe z�ro con�u comme un syst�me modulaire, ce qui permet �tendu nouveau format de donn�es, la couche de r�seau et la perte de fonction.

(2) la repr�sentation et � la segmentation: pas de programmation de code, il suffit d'utiliser le mod�le de langue Protocol Buffer r�seau personnalis� dans le fichier de configuration. Dans toute forme de graphe acyclique orient� dans l'architecture de r�seau de support Caffe. Caffe appellera automatiquement la m�moire appropri�e en fonction de la taille du r�seau afin d'�viter l'empreinte m�moire excessive, mais peut �galement basculer entre le CPU et le GPU.

(3) la couverture de test: dans Caffe, chaque module correspondant � une �preuve.

(4) Python et Matlab officiel Caffe a deux versions du compilateur pour la version Python, la mise en uvre finale de l'exp�rience de v�rification compil� sur Python 2.7.

(5) pr�-formation Mod�le de r�f�rence: Pour les projets visuels, Caffe fournit un certain mod�le de r�f�rence utilis� uniquement pour les zones acad�miques et non commerciales, la plupart des mod�les se trouvent dans le zoo mod�le caffe, mais ce n'est pas l'accord de licence BSD open source.

Plus tard, il Jayant �quipe de recherche SD a d�velopp� une nouvelle g�n�ration dans le cadre Facebook Caffe2. 2018 Nian 4 Yue 18 Ri, Facebook open source Caffe2. Accorder plus d'attention � une nouvelle g�n�ration de ch�ssis modulaire, du c�t� mobile, d�ploiement � grande �chelle de l'excellence. Comme tensorflow, Caffe2 en utilisant la biblioth�que C ++ Eigen qui prend en charge l'architecture ARM.

3 Principe de l'algorithme

Les caract�ristiques d'entr�e du r�seau AlexNet, la taille requise de l'image est de 227 � 227 pour l'entr�e. Mais la taille du visage des donn�es d'image d'origine ne peut pas �tre la 227 � 227, une grande, un peu trop petit. Il est n�cessaire d'utiliser une pyramide d'images (image Pyramid) conversion multi-�chelle, et ensuite � travers le r�seau neuronal convolutif graphique caract�ristique de propagation d�riv� obtenu apr�s application de toutes les fen�tres sur l'image de la valeur de probabilit� du visage. Cette m�thode est la valeur de probabilit� est sup�rieure � 0,95 du point caract�ristique de transformation inverse pour obtenir une image correspondante d'une r�gion, qui est la position de la trame de visage.

Bien que le cadre de coordonn�es du visage sont venus, mais trouveront beaucoup pour r�pondre aux exigences de la fen�tre, il suffit de donner un visage humain pour caract�riser la fen�tre la plus probable, par cons�quent, il est n�cessaire d'utiliser des algorithmes NMS (de suppression non maximale) pour �liminer croix fen�tre r�p�tition et trouver la meilleure position d'un visage, un visage humain pour trouver la meilleure position. 7, le principe de l'algorithme est sensiblement NMS, supposons qu'un cadre et le cadre B en tant que trame candidate comprenant la m�me face, et cross-over entre les IOU (Intersection-over-Union) est sup�rieur � 0,8, est consid�r� le degr� �lev� de chevauchement, la probabilit� d'appartenir � une valeur nominale de P humaine (B)> P (a), le bloc candidat a d'abattage.

La figure 8 est un organigramme de l'algorithme de d�tection global. Opencv �tre lue en utilisant la premi�re image d�tect�e, et ensuite effectuer les op�rations suivantes.

4 montre les r�sultats de

La m�thode permet la plate-forme de syst�me Linux, le num�ro de version est Ubuntu16.04, mod�le de carte graphique GPU GTX1080. utilisation de logiciels Caffe + Python 2.7 + OpenCV 3.4.1.

La formation pour des raisons de m�moire, batch_size ensemble � 64 ans, mais pas universelle 128. La figure 9 est le r�sultat de la formation, chaque apr�s avoir enregistr� 100 fois la valeur de la perte, vous pouvez voir la perte Formation: 0,00301 et banc de test: 390,001, essentiellement r�pondre � la demande, et aucun ph�nom�ne surajustement.

La figure 10 est une premi�re donn�e d'image de l'image transform�e de pyramide, puis l'image apr�s mise � l'�chelle de chaque carte de caract�ristiques obtenue avant la propagation de la figure thermique. Dans la Fig. 6, la m�me changement de coordonn�es, peut facilement voir le changement d'�chelle de l'image, les zones d'image plus sombre repr�sentant que la probabilit� correspondante d'appartenance � la valeur sup�rieure de la figure humaine. Avec l'un changement d'�chelle, toutes les positions possibles de face humaine viennent tous � la conclusion qu'un cadrage de visage optimale par un algorithme NMS.

La figure 11 est une taille diff�rente, les diff�rentes donn�es d'image de visage de r�solution (ensembles de donn�es d'image provenant du r�seau et 300W, comprenant une face frontale, des faces lat�rales et des faces multiples) du r�sultat de d�tection r�el, qui peuvent �tre ainsi d�tect�s trame de visage, que le mod�le a de bons r�sultats de la classification, pour d�tecter les traits du visage.

5 Conclusion

r�aliser la pr�sente d�tection des visages, un simple et efficace et facile � utiliser le cadre d'apprentissage en profondeur Caffe, pour construire un r�seau AlexNet, obtenu gr�ce � une grande quantit� de donn�es de formation de classificateurs de caffemodel, l'algorithme de fen�tre coulissante selon la m�thode traditionnelle, et l'utilisation de non-pyramide transforment maxima algorithmes de suppression et utiliser les puissants outils de vision par ordinateur de visage encadr�, pour r�aliser la d�tection de convolution globale face du r�seau de neurones. Mais l'inconv�nient est que le mod�le ne peut pas identifier efficacement de multiples visages, la luminosit� d'image inf�rieure ne peut �tre identifi�, l'�tape suivante � adopter des donn�es plus �tendues et une meilleure optimisation du r�seau (comme VGGNet, GoogleNet et ResNet, etc.) pour la formation, pour atteindre plus de d�tection de visage, la localisation et l'expression des points cl�s de d�tection et d'autres fonctions, ou essayer Caffe2 pour la d�tection de corr�lation de face d'extr�mit� mobile.

r�f�rences

�. Deng zones Multiplying Chau de mise au point et l'orientation du d�veloppement de l'intelligence artificielle Forum populaire, 2018 (2): 22-24.

�La recherche et l'application de Li Wei apprentissage en profondeur en reconnaissance d'image Wuhan: Wuhan University of Technology, 2014.

�Jiang Zhaojun, Cheng Xiao Gang, Peng Yaqin, comme UAV algorithme d'identification d'apprentissage de la profondeur sur la base de la technologie �lectronique, 2017,43 (7): 84-87.

�. XU Bao Gui "Internet +" strat�gie de d�veloppement de la technologie de l'intelligence artificielle pour r�soudre les t�l�communications du monde, 2016 (3): 71-75.

�ALTO P, JONES M J.Robust face temps r�el detection.International Journal of Computer Vision, 2004,57 (2): 137-154.

�Jin Song, d�tection de cible humano�de Wang Shifeng bas� sur HOG �l�ment d�formable comporte mod�le Applied Optics, 2016,37 (3): 380-384.

�Hu Fahuan, Liu Guoping, Hu Rong Hua, et d'autres la d�tection hi�rarchique bas�e sur la vision de la machine et le nombril de la qualit� d'orange Universit� de Beijing SVM technologie, 2014 (11): 1615-1620.

�RUSSAKOVSKY O, J DENG, SU H, et al.ImageNet grande reconnaissance �chelle visuelle challenge.International Journal of Computer Vision, 2015,115 (3): 211-252.

�. Wei �tudie la reconnaissance face � la plate-forme Caffe et la profondeur de l'apprentissage bas� � Xi'an: Xi'an Universit� des sciences et de la technologie �lectronique, 2015.

�. Wang Qian, Zhang Xian cadre d'apprentissage en profondeur Caffe dans la demande de classification d'images de l'ordinateur moderne, 2016 (5): 72-75.

�Jia Yangqing, SHELHAMER E, J Donahue, et al.Caffe: Architecture convolutionnel pour fonction rapide embedding.arXiv: 1408.5093,2014.

�KRIZHEVSKY A, SUTSKEVER I, HINTON classification G.ImageNet avec networks.Advances neurones convolutionnels profondes dans Neural Information Processing Systems, 2012,25 (2): 1097-1105.

�A Badawi A, CHAO J, LIN J, et al.The AlexNet instant pour le chiffrement homomorphique: HCNN, le premier homomorphic CNN sur des donn�es chiffr�es avec GPUs.arXiv: 1811.00778v2,2019.

�. Tingting titre, Xu Xu bas� sur l'�chantillonnage complet et sous-�chantillonner la m�thode de classification d'image de logiciel de r�seau neuronal de la norme L1 convolutif, 2018,39 (2): 75-80.

�XuShao Wei, une �tude approfondie Chen Siyu de m�thode de classification de l'image sur la base de la technologie �lectronique, 2018,44 (6): 122-125.

�. Xie Jun, Chen Wei recherche convolutionnel r�seau de neurones sur le logiciel de reconnaissance faciale GUIDE 2018 (1):. 25-27.

Informations sur l'auteur:

Wang Jingbo, Meng Jun

(Laboratoire cl� de la technologie de mesure �lectronique, Universit� du Nord, Taiyuan 030051, Chine)

Route de la soie

Apprenez � conna�tre la Chine

Convolution r�seau neuronal algorithme de d�tection de visage