étude approfondie tensorflow basée sur la reconnaissance de chiffres manuscrits et applications

0 introduction

Avec le développement de la science et de la technologie, la technologie de reconnaissance de l'intelligence artificielle a été largement utilisé dans divers domaines, mais aussi de promouvoir l'application de l'ordinateur vers le développement d'intelligent. D'une part, le modèle de l'intelligence artificielle pour l'apprentissage en profondeur, les réseaux de neurones, représentés a gagné une large attention à la maison et des universitaires à l'étranger, d'autre part, les systèmes d'apprentissage de l'intelligence artificielle et la machine open source, technologie ouverte pour construire une plate-forme pour le développement de la recherche sur l'intelligence artificielle. Sur la base cadre d'apprentissage profondeur tensorflow, pour construire Softmax, modèle CNN et complète reconnaissance de chiffres manuscrits.

LeCun Y a proposé réseau neuronal multicouche une Lenet-5 genre pour identifier les caractères écrits à la main de 0 à 9, l'algorithme d'apprentissage du modèle de propagation arrière (BP Back Propagation,), pour établir un modèle de la première application CNN . Avec l'avènement de la reconnaissance d'image de l'intelligence artificielle, CNN devient un sujet brûlant ces dernières années, principalement utilisé dans la classification des images , détection de cible , le suivi cible , la reconnaissance de texte etc., où AlexNet , GoogleNet et ResNet algorithmes a fait un grand succès.

Sur la base de la plate-forme open source intelligence artificielle de Google de deuxième génération tensorflow, combinée avec le cadre de l'apprentissage en profondeur, les modèles de régression Softmax pour comparer les algorithmes et la vérification CNN, et la formation enfin le modèle des applications étaient basées sur la plate-forme Android.

9 novembre 2015, Google a publié la deuxième génération de l'intelligence artificielle et d'un système d'apprentissage open source tensorflow . Elle représente un tenseur Tensor (dimension de N par la composition), Flow (flux) montre un calcul basé sur une donnée graphique de flux, tenseur tensorflow est exprimé sous forme d'un flux d'un bout à l'organigramme de calcul de l'autre extrémité. Tensorflow support réseau de mémoire à court terme (à long court terme Réseaux mémoire, LSTMN), réseau de neurones récurrents (Recurrent Neural Networks, RNN) et convolution réseau de neurones (CNN) et autre modèle de réseau de neurones profond. tensorflow structure de base représentée sur la Fig.

Comme il ressort de. La figure 1, l'architecture de base tensorflow peut être divisé en les extrémités avant et arrière. Avant: à base de soutien à l'environnement de programmation multi-langues, API d'accès modèle de programmation back-end en appelant le système. Arrière: environnement d'exploitation fourni par un environnement d'exploitation distribué, une couche de réseau de noyau et une couche de dispositif.

2 retour Softmax

La régression logistique algorithme Softmax régression capable d'expansion binaire jusqu'à classification. Modèle de régression échantillon est assumée par les K classes, un total de m, l'ensemble d'entraînement peut être représenté par la formule (1):

Dans lequel, x (i) R (n + 1), y (i) {1,2, ..., K}, n + 1 du vecteur caractéristique dimension x. Pour une valeur d'entrée donnée des x de probabilité estimée K, la sortie est représenté par la formule (2):

Les paramètres 1, 2, ..., k effectuant une descente de gradient, pour obtenir le modèle de régression Softmax, mis en oeuvre dans tensorflow 2 représenté sur la figure.

La figure 2 est une représentation matricielle, la formule (5):

L'ensemble de données de test est substitué dans la formule (5), et en calculant la probabilité de la catégorie, la catégorie ayant la probabilité la plus élevée est le résultat prévu.

3 CNN

réseau neuronal convolutif (CNN) est un réseau de neurones à action directe, les données comprenant typiquement une couche d'entrée, une couche de calcul de convolution, la couche d'excitation RELU, la couche mise en commun, la couche entièrement connecté, etc., par l'opération de convolution à la place de la multiplication de la matrice traditionnelle le réseau de neurones. CNN couramment utilisé dans les données de traitement d'une image, le modèle de réseau neuronal classique LenNet-5 représenté sur la figure 3.

Le modèle est constitué de deux couches convolution, trois couches entièrement connectées deux échantillons couches (couche de cellules).

couche 3.1 de convolution

Convolution est réalisée par une couche de noyau de convolution est une couche de accordable, dans lequel la convolution figure coulissante, une plus offset pour donner un signal de sortie net, et ensuite appeler le résultat de convolution de la fonction d'activation obtenue par l'ensemble sortie de convolution coulissante figure diagramme caractéristique de la nouvelle formule (6) à (7):

3.2 couche d'échantillonnage

couche d'échantillon figure est caractérisée en divisant une fenêtre d'entrée en une pluralité de n × n ne se chevauchent pas, la valeur maximale ou la valeur moyenne est ensuite calculée pour chaque région, l'image réduite n fois, et enfin par addition d'une quantité de décalage de la fonction d'activation obtenir des données d'échantillon. Dans lequel une méthode de la valeur maximale, méthode de la moyenne et de sortie tels que la formule (8) à (10):

3.3 couche de sortie entièrement connecté

La couche est entièrement connecté à classer l'image d'origine par extraction de paramètres de caractéristique. La nomenclature commune de formule (11):

4 Analyse expérimentale

Sur la base cadre d'apprentissage de la profondeur tensorflow, la source de données des ensembles de données de MNIST, respectivement, et la profondeur CNN Softmax algorithme de régression pour former l'apprentissage du modèle, la formation et la validation du modèle sont comparés, et appliqués sur les applications.

ensemble de données 4.1 MNIST

ensemble de données comprend des données MNIST de formation définies 60000 lignes (trains-images-idx3) et 10.000 rangées d'ensembles de données de test (Test-images-idx3). Chaque échantillon a une étiquette unique (étiquette), décrivent des échantillons numériques correspondant, chaque image contient 28 × 28 points de pixel, comme représenté sur la Fig.

La figure 4 montre que chaque image échantillon d'un 28 × 28 points de pixel, peut être un vecteur de longueur 784 de la Fig. ensemble de données d'apprentissage MNIST peut être converti en tenseur, dans lequel une première dimension est utilisé pour représenter les données d'image d'index, la seconde dimension des données représentant chaque pixel de l'image. Et correspondant à l'étiquette de l'échantillon (étiquette) est un nombre de 0 à 9, par codées à chaud (codant pour un chaud) être représenté. En plus d'un codé chaud est autre qu'un chiffre 1, les dimensions restantes sont des nombres 0, 0 est représenté en tant que marqueurs tels que Par conséquent, un échantillon tag est tenseur .

4.2 Mise en uvre du modèle Softmax

(. 5) La formule, modèle Softmax peut être décomposé en une matrice de fonctions de base et appel Softmax, le modèle mis en oeuvre comme suit: (1) l'utilisation des variables symboliques pour créer l'unité d'exploitation peut interagir; (2) créer une valeur de pondération et une quantité partielle; (3 ) selon l'équation (5), pour obtenir la régression Softmax.

4.3 Mise en uvre du modèle CNN

LenNet-5 liaison modèle de réseau neuronal, la profondeur de tensorflow apprentissage basé sur un modèle comme suit obtenus:

(1) le poids et l'initialisation de polarisation;

(2) créer un pool de convolution et des modèles;

(3) la convolution, rassemblées deux fois;

(4) pleine connectée à la sortie;

(5) retour Softmax.

4.4 Indice d'évaluation

Une fonction de coût en utilisant la classique « d'entropie croisée » (entropie croisée), comme représenté dans la formule (12):

4.5 Mod'ele

méthode d'essai de prévisions est la suivante:

(1) Le modèle de formation pour sauver;

(2) des échantillons de test d'entrée de prédiction d'étiquettes;

fonction (3) pour obtenir l'appel prédit tf.argmax valeur de la variable;

(4) la valeur d'étiquette pour correspondre à la vitesse de la reconnaissance réelle, définitif est calculé.

Selon les étapes ci-dessus, respectivement Softmax convolutif modèle de réseau neuronal et le numéro d'identification, le nombre de taux de reconnaissance de 0 à 9 sont représentés sur la figure 5, comme indiqué dans le tableau 1.

Le modèle prédit les résultats indiqués dans le Tableau 1, un modèle numérique du taux de reconnaissance Softmax 97,9%, le taux de reconnaissance la plus élevée. 3 et 8 taux de reconnaissance de nombres numériques est relativement faible, est de 84,9%, 87,7%, respectivement. modèle Softmax taux global de reconnaissance de caractères écrits à la main 0 à 991,57%.

En liaison avec les figures. 5 et le tableau 1, le modèle de taux de reconnaissance dans le modèle Softmax CNN, dans lequel le taux de reconnaissance du numéro est améliorée de 14,7% 3, un certain nombre de taux de reconnaissance améliorée est seulement de 1,7%. CNN modèle basé sur l'étude de la profondeur sur la reconnaissance de chiffres manuscrits globale de 0 à 9, jusqu'à 99,17 pour cent, par rapport modèle Softmax augmentation globale de 7,6%.

4.6 Modèle d'application

Vu en comparant la validation du modèle, le taux de reconnaissance du modèle de Softmax étude approfondie de CNN. Le modèle formé à la désormais porté plate-forme Android, l'application multi-plateforme, la mise en uvre suit.

(1) d'interfaces

écran tactile Handwritten suit l'utilisateur avec un contrôle Bitmap, et deux contrôles Button, respectivement, pour l'identification numérique et écran Clairs.

(2) références tensorflow

Tout d'abord compilé besoin tensorflow d'appeler le paquet jar et ainsi les fichiers. En second lieu, le modèle formé (.pb) dans le projet Android.

(3) l'interface

définition d'interface et initialisation:

inferenceInterface.initializeTensorFlow (getAssets, MODEL_FILE);

Interface d'appel:

inferenceInterface.fillNodeFloat (input_node, new int {1, hauteur, largeur, CANAL}, entrées);

obtenir des prévisions

inferenceInterface.readNodeFloat (OUTPUT_NODE, sorties);

A travers les étapes ci-dessus pour compléter la plate-forme Android et construire sur l'environnement, d'une part fonction de capture d'écran tactile et enregistrer Android piste d'écriture manuscrite, la reconnaissance de l'écriture manuscrite est terminée, cliquez sur le bouton, le système appellera l'identification du modèle, et délivre en sortie le résultat de reconnaissance à l'utilisateur l'interface. Après l'identification est terminée, cliquez sur Effacer, procédure ci-dessus cyclique peut à nouveau reconnaître les chiffres écrits à la main, l'effet des numéros d'identification des pièces écrites à la main comme indiqué sur la figure.

6 De la, la profondeur de tensorflow numérique basée sur la reconnaissance de l'écriture manuscrite d'apprentissage complète la plate-forme Android, et l'utilisation du modèle de formation de CNN a de meilleurs résultats de reconnaissance, pour parvenir à un modèle de formation des applications multi-plateforme.

5. Conclusion

Based tensorflow cadre d'apprentissage profond, le retour Softmax et la formation numérique manuscrite de CNN et le modèle porté sur la plate-forme Android, les applications multi-plateformes. Les données expérimentales montrent que, sur la base du taux de reconnaissance de 91,57% modèle de régression Softmax, sur la base du taux de reconnaissance plus élevé que le modèle CNN 99,17% de. Spectacle basé sur l'étude approfondie de la reconnaissance manuscrite numérique a une valeur de référence en reconnaissance de l'intelligence artificielle.

références

HUBEL D H, T WIESEL N.Receptive champs et de l'architecture fonctionnelle de singe cortex strié .Journal of Physiology, 1968,195 (1): 215-243.

LeCun Y, Bottou L, Bengio Y, et sur la base al.Gradient-apprentissage appliqué à la reconnaissance de documents .Proceedings de l'IEEE, 1998,86 (11): 2278-2324.

ZEILER M D, FERGUS R.Visualizing et la compréhension des réseaux convolutifs .arXiv: 1311.2901 .

Il Kang Jian, mémoire Associative, Nieren Can, etc. Sur la base de la détection cible d'image couleur noyau contrôle local Technologie électronique, 2016,42 (12): 89-92.

H LI, LI Y, PORIKLI F.DeepTrack: apprendre des représentations d'entités discriminantes en ligne pour le suivi visuel robuste .IEEE Transactions sur traitement de l'image, 2015,25 (4): 1834-1848.

I J GOODFELLOW, BULATOV Y, Ibarz J, et nombre al.Multi chiffres reconnaissance à partir d'images de vue sur la rue en utilisant des réseaux de neurones convolutionnels profonde .arXiv: 1312.6082 .

KRIZHEVSKY A, SUTSKEVER I, HINTON G E.ImageNet classifycation avec les réseaux de neurones convolutionnels profonds Conférence .International sur Neural Information Processing Systems.Curran Associates Inc., 2012: 1097-1105.

Szegedy C, LIU W, Y JIA, et al.Going plus profonde avec convoluteons Conférence sur .IEEE Vision par ordinateur et Recognition.IEEE, 2015: 1-9.

HE K, Zhang X, REN S, et al.Deep apprentissage résiduel pour la reconnaissance d'image .arXiv: 1512,03385 .

ABADI M, AGARWAL A, BARHAM P, et al.TensorFlow: apprentissage automatique à grande échelle sur les systèmes distribués hétérogènes .arXiv: 1603,04467 .

Informations sur l'auteur:

Huang Rui, Xu Ming Lu, Yi-lin Wu

(Département des sciences informatiques, Guangdong Institute of Education, Guangzhou 510303)

Regardez Yuelu sommet « Hunan Mobile » Comment aider le développement du Hunan
Précédent
SUV grab marché paysage cheval sombre 580 ou à Dieu voiture Terminator
Prochain
GRAINS raid pluie Quanzhou! La voiture a heurté l'arbre vers le bas! Qingming retour ...... détour s'il vous plaît
« Bowen série » Xilinx-7Series-FPGA utilisations d'émetteur-récepteur à grande vitesse -RX étude décrit l'extrémité de réception
Puis toute l'évolution, la nouvelle transformation magnifique Kia K2
« Les points chauds de l'industrie » Pourquoi la puce intérieure insuffisante? Vraiment difficile à faire parce que
Directeur général des élections de caractère populaire jeu en 8 DAY1201816 autocollants de vote des femmes
100000 indépendants des familles de travailleurs pour répondre à la demande intérieure pour les voitures SUV
Renforcer l'éducation patriotique en 2019, « Ma maison-My Dream » pratique de la lecture a commencé dans le Hunan
Mémoire / SSD effondrement des prix? En raison de granules de stockage de demande insuffisante prix des contrats ont continué de baisser
Sciences données en Chine Forum: Daniel a réuni, en combinant ensemble de la production a déclenché une nouvelle flambée | KDD 2017
Directeur général des élections de caractère populaire jeu en 8 DAY1201816 autocollants de vote hommes
Vous voulez acheter une voiture d'occasion ne peut pas acheter vous enseigner Xiao Bian comment acheter une voiture d'occasion
« Épicerie chagrin » Resurrection millions de personnes en ligne de Noël Carnaval fait exploser la puissance brûlant des funérailles