�tude approfondie tensorflow bas�e sur la reconnaissance de chiffres manuscrits et applications

0 introduction

Avec le d�veloppement de la science et de la technologie, la technologie de reconnaissance de l'intelligence artificielle a �t� largement utilis� dans divers domaines, mais aussi de promouvoir l'application de l'ordinateur vers le d�veloppement d'intelligent. D'une part, le mod�le de l'intelligence artificielle pour l'apprentissage en profondeur, les r�seaux de neurones, repr�sent�s a gagn� une large attention � la maison et des universitaires � l'�tranger, d'autre part, les syst�mes d'apprentissage de l'intelligence artificielle et la machine open source, technologie ouverte pour construire une plate-forme pour le d�veloppement de la recherche sur l'intelligence artificielle. Sur la base cadre d'apprentissage profondeur tensorflow, pour construire Softmax, mod�le CNN et compl�te reconnaissance de chiffres manuscrits.

LeCun Y a propos� r�seau neuronal multicouche une Lenet-5 genre pour identifier les caract�res �crits � la main de 0 � 9, l'algorithme d'apprentissage du mod�le de propagation arri�re (BP Back Propagation,), pour �tablir un mod�le de la premi�re application CNN . Avec l'av�nement de la reconnaissance d'image de l'intelligence artificielle, CNN devient un sujet br�lant ces derni�res ann�es, principalement utilis� dans la classification des images , d�tection de cible , le suivi cible , la reconnaissance de texte etc., o� AlexNet , GoogleNet et ResNet algorithmes a fait un grand succ�s.

Sur la base de la plate-forme open source intelligence artificielle de Google de deuxi�me g�n�ration tensorflow, combin�e avec le cadre de l'apprentissage en profondeur, les mod�les de r�gression Softmax pour comparer les algorithmes et la v�rification CNN, et la formation enfin le mod�le des applications �taient bas�es sur la plate-forme Android.

9 novembre 2015, Google a publi� la deuxi�me g�n�ration de l'intelligence artificielle et d'un syst�me d'apprentissage open source tensorflow . Elle repr�sente un tenseur Tensor (dimension de N par la composition), Flow (flux) montre un calcul bas� sur une donn�e graphique de flux, tenseur tensorflow est exprim� sous forme d'un flux d'un bout � l'organigramme de calcul de l'autre extr�mit�. Tensorflow support r�seau de m�moire � court terme (� long court terme R�seaux m�moire, LSTMN), r�seau de neurones r�currents (Recurrent Neural Networks, RNN) et convolution r�seau de neurones (CNN) et autre mod�le de r�seau de neurones profond. tensorflow structure de base repr�sent�e sur la Fig.

Comme il ressort de. La figure 1, l'architecture de base tensorflow peut �tre divis� en les extr�mit�s avant et arri�re. Avant: � base de soutien � l'environnement de programmation multi-langues, API d'acc�s mod�le de programmation back-end en appelant le syst�me. Arri�re: environnement d'exploitation fourni par un environnement d'exploitation distribu�, une couche de r�seau de noyau et une couche de dispositif.

2 retour Softmax

La r�gression logistique algorithme Softmax r�gression capable d'expansion binaire jusqu'� classification. Mod�le de r�gression �chantillon est assum�e par les K classes, un total de m, l'ensemble d'entra�nement peut �tre repr�sent� par la formule (1):

Dans lequel, x (i) R (n + 1), y (i) {1,2, ..., K}, n + 1 du vecteur caract�ristique dimension x. Pour une valeur d'entr�e donn�e des x de probabilit� estim�e K, la sortie est repr�sent� par la formule (2):

Les param�tres 1, 2, ..., k effectuant une descente de gradient, pour obtenir le mod�le de r�gression Softmax, mis en oeuvre dans tensorflow 2 repr�sent� sur la figure.

La figure 2 est une repr�sentation matricielle, la formule (5):

L'ensemble de donn�es de test est substitu� dans la formule (5), et en calculant la probabilit� de la cat�gorie, la cat�gorie ayant la probabilit� la plus �lev�e est le r�sultat pr�vu.

3 CNN

r�seau neuronal convolutif (CNN) est un r�seau de neurones � action directe, les donn�es comprenant typiquement une couche d'entr�e, une couche de calcul de convolution, la couche d'excitation RELU, la couche mise en commun, la couche enti�rement connect�, etc., par l'op�ration de convolution � la place de la multiplication de la matrice traditionnelle le r�seau de neurones. CNN couramment utilis� dans les donn�es de traitement d'une image, le mod�le de r�seau neuronal classique LenNet-5 repr�sent� sur la figure 3.

Le mod�le est constitu� de deux couches convolution, trois couches enti�rement connect�es deux �chantillons couches (couche de cellules).

couche 3.1 de convolution

Convolution est r�alis�e par une couche de noyau de convolution est une couche de accordable, dans lequel la convolution figure coulissante, une plus offset pour donner un signal de sortie net, et ensuite appeler le r�sultat de convolution de la fonction d'activation obtenue par l'ensemble sortie de convolution coulissante figure diagramme caract�ristique de la nouvelle formule (6) � (7):

3.2 couche d'�chantillonnage

couche d'�chantillon figure est caract�ris�e en divisant une fen�tre d'entr�e en une pluralit� de n � n ne se chevauchent pas, la valeur maximale ou la valeur moyenne est ensuite calcul�e pour chaque r�gion, l'image r�duite n fois, et enfin par addition d'une quantit� de d�calage de la fonction d'activation obtenir des donn�es d'�chantillon. Dans lequel une m�thode de la valeur maximale, m�thode de la moyenne et de sortie tels que la formule (8) � (10):

3.3 couche de sortie enti�rement connect�

La couche est enti�rement connect� � classer l'image d'origine par extraction de param�tres de caract�ristique. La nomenclature commune de formule (11):

4 Analyse exp�rimentale

Sur la base cadre d'apprentissage de la profondeur tensorflow, la source de donn�es des ensembles de donn�es de MNIST, respectivement, et la profondeur CNN Softmax algorithme de r�gression pour former l'apprentissage du mod�le, la formation et la validation du mod�le sont compar�s, et appliqu�s sur les applications.

ensemble de donn�es 4.1 MNIST

ensemble de donn�es comprend des donn�es MNIST de formation d�finies 60000 lignes (trains-images-idx3) et 10.000 rang�es d'ensembles de donn�es de test (Test-images-idx3). Chaque �chantillon a une �tiquette unique (�tiquette), d�crivent des �chantillons num�riques correspondant, chaque image contient 28 � 28 points de pixel, comme repr�sent� sur la Fig.

La figure 4 montre que chaque image �chantillon d'un 28 � 28 points de pixel, peut �tre un vecteur de longueur 784 de la Fig. ensemble de donn�es d'apprentissage MNIST peut �tre converti en tenseur, dans lequel une premi�re dimension est utilis� pour repr�senter les donn�es d'image d'index, la seconde dimension des donn�es repr�sentant chaque pixel de l'image. Et correspondant � l'�tiquette de l'�chantillon (�tiquette) est un nombre de 0 � 9, par cod�es � chaud (codant pour un chaud) �tre repr�sent�. En plus d'un cod� chaud est autre qu'un chiffre 1, les dimensions restantes sont des nombres 0, 0 est repr�sent� en tant que marqueurs tels que Par cons�quent, un �chantillon tag est tenseur .

4.2 Mise en uvre du mod�le Softmax

(. 5) La formule, mod�le Softmax peut �tre d�compos� en une matrice de fonctions de base et appel Softmax, le mod�le mis en oeuvre comme suit: (1) l'utilisation des variables symboliques pour cr�er l'unit� d'exploitation peut interagir; (2) cr�er une valeur de pond�ration et une quantit� partielle; (3 ) selon l'�quation (5), pour obtenir la r�gression Softmax.

4.3 Mise en uvre du mod�le CNN

LenNet-5 liaison mod�le de r�seau neuronal, la profondeur de tensorflow apprentissage bas� sur un mod�le comme suit obtenus:

(1) le poids et l'initialisation de polarisation;

(2) cr�er un pool de convolution et des mod�les;

(3) la convolution, rassembl�es deux fois;

(4) pleine connect�e � la sortie;

(5) retour Softmax.

4.4 Indice d'�valuation

Une fonction de co�t en utilisant la classique � d'entropie crois�e � (entropie crois�e), comme repr�sent� dans la formule (12):

4.5 Mod'ele

m�thode d'essai de pr�visions est la suivante:

(1) Le mod�le de formation pour sauver;

(2) des �chantillons de test d'entr�e de pr�diction d'�tiquettes;

fonction (3) pour obtenir l'appel pr�dit tf.argmax valeur de la variable;

(4) la valeur d'�tiquette pour correspondre � la vitesse de la reconnaissance r�elle, d�finitif est calcul�.

Selon les �tapes ci-dessus, respectivement Softmax convolutif mod�le de r�seau neuronal et le num�ro d'identification, le nombre de taux de reconnaissance de 0 � 9 sont repr�sent�s sur la figure 5, comme indiqu� dans le tableau 1.

Le mod�le pr�dit les r�sultats indiqu�s dans le Tableau 1, un mod�le num�rique du taux de reconnaissance Softmax 97,9%, le taux de reconnaissance la plus �lev�e. 3 et 8 taux de reconnaissance de nombres num�riques est relativement faible, est de 84,9%, 87,7%, respectivement. mod�le Softmax taux global de reconnaissance de caract�res �crits � la main 0 � 991,57%.

En liaison avec les figures. 5 et le tableau 1, le mod�le de taux de reconnaissance dans le mod�le Softmax CNN, dans lequel le taux de reconnaissance du num�ro est am�lior�e de 14,7% 3, un certain nombre de taux de reconnaissance am�lior�e est seulement de 1,7%. CNN mod�le bas� sur l'�tude de la profondeur sur la reconnaissance de chiffres manuscrits globale de 0 � 9, jusqu'� 99,17 pour cent, par rapport mod�le Softmax augmentation globale de 7,6%.

4.6 Mod�le d'application

Vu en comparant la validation du mod�le, le taux de reconnaissance du mod�le de Softmax �tude approfondie de CNN. Le mod�le form� � la d�sormais port� plate-forme Android, l'application multi-plateforme, la mise en uvre suit.

(1) d'interfaces

�cran tactile Handwritten suit l'utilisateur avec un contr�le Bitmap, et deux contr�les Button, respectivement, pour l'identification num�rique et �cran Clairs.

(2) r�f�rences tensorflow

Tout d'abord compil� besoin tensorflow d'appeler le paquet jar et ainsi les fichiers. En second lieu, le mod�le form� (.pb) dans le projet Android.

(3) l'interface

d�finition d'interface et initialisation:

inferenceInterface.initializeTensorFlow (getAssets, MODEL_FILE);

Interface d'appel:

inferenceInterface.fillNodeFloat (input_node, new int {1, hauteur, largeur, CANAL}, entr�es);

obtenir des pr�visions

inferenceInterface.readNodeFloat (OUTPUT_NODE, sorties);

A travers les �tapes ci-dessus pour compl�ter la plate-forme Android et construire sur l'environnement, d'une part fonction de capture d'�cran tactile et enregistrer Android piste d'�criture manuscrite, la reconnaissance de l'�criture manuscrite est termin�e, cliquez sur le bouton, le syst�me appellera l'identification du mod�le, et d�livre en sortie le r�sultat de reconnaissance � l'utilisateur l'interface. Apr�s l'identification est termin�e, cliquez sur Effacer, proc�dure ci-dessus cyclique peut � nouveau reconna�tre les chiffres �crits � la main, l'effet des num�ros d'identification des pi�ces �crites � la main comme indiqu� sur la figure.

6 De la, la profondeur de tensorflow num�rique bas�e sur la reconnaissance de l'�criture manuscrite d'apprentissage compl�te la plate-forme Android, et l'utilisation du mod�le de formation de CNN a de meilleurs r�sultats de reconnaissance, pour parvenir � un mod�le de formation des applications multi-plateforme.

5. Conclusion

Based tensorflow cadre d'apprentissage profond, le retour Softmax et la formation num�rique manuscrite de CNN et le mod�le port� sur la plate-forme Android, les applications multi-plateformes. Les donn�es exp�rimentales montrent que, sur la base du taux de reconnaissance de 91,57% mod�le de r�gression Softmax, sur la base du taux de reconnaissance plus �lev� que le mod�le CNN 99,17% de. Spectacle bas� sur l'�tude approfondie de la reconnaissance manuscrite num�rique a une valeur de r�f�rence en reconnaissance de l'intelligence artificielle.

r�f�rences

HUBEL D H, T WIESEL N.Receptive champs et de l'architecture fonctionnelle de singe cortex stri� .Journal of Physiology, 1968,195 (1): 215-243.

LeCun Y, Bottou L, Bengio Y, et sur la base al.Gradient-apprentissage appliqu� � la reconnaissance de documents .Proceedings de l'IEEE, 1998,86 (11): 2278-2324.

ZEILER M D, FERGUS R.Visualizing et la compr�hension des r�seaux convolutifs .arXiv: 1311.2901 .

Il Kang Jian, m�moire Associative, Nieren Can, etc. Sur la base de la d�tection cible d'image couleur noyau contr�le local Technologie �lectronique, 2016,42 (12): 89-92.

H LI, LI Y, PORIKLI F.DeepTrack: apprendre des repr�sentations d'entit�s discriminantes en ligne pour le suivi visuel robuste .IEEE Transactions sur traitement de l'image, 2015,25 (4): 1834-1848.

I J GOODFELLOW, BULATOV Y, Ibarz J, et nombre al.Multi chiffres reconnaissance � partir d'images de vue sur la rue en utilisant des r�seaux de neurones convolutionnels profonde .arXiv: 1312.6082 .

KRIZHEVSKY A, SUTSKEVER I, HINTON G E.ImageNet classifycation avec les r�seaux de neurones convolutionnels profonds Conf�rence .International sur Neural Information Processing Systems.Curran Associates Inc., 2012: 1097-1105.

Szegedy C, LIU W, Y JIA, et al.Going plus profonde avec convoluteons Conf�rence sur .IEEE Vision par ordinateur et Recognition.IEEE, 2015: 1-9.

HE K, Zhang X, REN S, et al.Deep apprentissage r�siduel pour la reconnaissance d'image .arXiv: 1512,03385 .

ABADI M, AGARWAL A, BARHAM P, et al.TensorFlow: apprentissage automatique � grande �chelle sur les syst�mes distribu�s h�t�rog�nes .arXiv: 1603,04467 .

Informations sur l'auteur:

Huang Rui, Xu Ming Lu, Yi-lin Wu

(D�partement des sciences informatiques, Guangdong Institute of Education, Guangzhou 510303)

Route de la soie

Apprenez � conna�tre la Chine

�tude approfondie tensorflow bas�e sur la reconnaissance de chiffres manuscrits et applications