Faible mat�riel ne peut pas fonctionner avec la profondeur du r�seau de neurones? Il vous a appris � surmonter le probl�me � d'abattage de couteau de poulet du b�tail �

Si vous savez quelque chose sur la profondeur d'apprentissage petits amis doivent savoir, l'apprentissage en profondeur n�cessite l'utilisation de serveurs puissants, l'acc�l�ration des plateformes embarqu�es (comme Jetson de NVIDIA) pour ex�cuter l'algorithme d'apprentissage en profondeur, mais cela signifie aussi d�penser beaucoup d'argent.

La question est donc, si vous pensez que vous voulez faire avec la framboise envoy�e � un tracker cible, l'entretien m�nager garder votre maison, cela peut �tre r�alis�? En d'autres termes, si vous avez besoin d'ex�cuter un r�seau de neurones de convolution sur la CPU ARM sans acc�l�rateur comment faire?

Lei Feng r�seau suppose que ce sera comme le petit personnage fr�re ci-dessous, comme une position inconfortable.

ing�nieurs apprentissage automatique des start-ups allemand BuddyGuard GmbH Dmytro Prylipko nous fournit une solution viable, � ne tuent pas les vaches couteau de poulet �, compil� Lei Feng r�seau, ne doivent pas �tre reproduits sans autorisation.

Comment optimiser le temps d'inf�rence?

communaut� d'apprentissage machine afin de raccourcir le temps inf�rence des r�seaux de neurones ont �t� �tudi�s pendant un certain temps, viennent �tudier des solutions possibles est encore beaucoup de. Cet article va tenter de r�pondre � une simple question: Quelle est la biblioth�que / bo�te � outils / cadre peut nous aider � optimiser le temps de former le mod�le de raisonnement? Cet article a �t� fourni seulement discuter des puces d'architecture ARM pour les bo�tes � outils et biblioth�ques d'interface de C / C (en raison de l'utilisation de dispositifs embarqu�s, nous avons rarement Lua ou Python), limit�e � la longueur de l'article, pas un autre raisonnement complexe d'acc�l�rer le r�seau de neurones m�thode, � savoir l'architecture de r�seau modifi�e peut �tre vu � partir de l'architecture SqeezeNet, la modification de l'architecture de r�seau est une option viable. Pour ces raisons, l'exp�rience a consist� � ne porte que sur l'utilisation du papier Caffe, tensorflow et MXNet ces trois cadre de l'apprentissage en profondeur open source.

Acc�l�rer le mod�le de r�seau de neurones pour calculer la vitesse de la plate-forme mat�rielle, il existe deux grandes strat�gies:

1) la modification du mod�le du r�seau de neurones;

2) acc�l�rer la vitesse de trame.

Bien s�r, ces deux strat�gies utilis�es en combinaison, est aussi une bonne id�e.

Modifier le mod�le de r�seau de neurones, il y a deux fa�ons, d'abord en r�duisant le poids de la pr�cision obtenue, � savoir r�duit la pr�cision de quantification de fonction, et la seconde, en poids la taille pour atteindre le poids derri�re l'id�e de la taille est de r�duire les param�tres du syst�me redondants. La r�duction du poids g�n�ralement faible pr�cision (repr�sentation des nombres � virgule flottante en utilisant des principes dynamiques � point fixe ou point fixe qui appuient cette approche: le processus de raisonnement ne n�cessitent une grande pr�cision, parce que le processus de calcul du calcul des propri�t�s lin�aires et non lin�aires compression de la gamme dynamique, de telle sorte que l'erreur de quantification est transmis uniquement � l'int�rieur du sous-lin�aire (sous-lin�airement) de gamme, afin de ne pas provoquer un changement radical de la valeur. de plus, on peut utiliser une multiplication � faible pr�cision pour former le mod�le de r�seau neuronal conjointement avec jeu d'instructions SIMD, tels que SSE3, peut rendre le processus de quantification de fonction peut �tre plus efficace, acc�l�rant ainsi le processus de formation. Cependant, nous avons encore du mal � trouver un emploi deux solutions, telles que l'utilisation de quantification cadre Ristretto peut �tre effectu�e pr�cision automatiquement limit�e, mais mais il n'a pas r�duit la charge de calcul .TensorFlow quantification peut �tre effectu�e, mais le temps d'inf�rence effectivement augment� de 5 � 20 fois, ainsi que la quantification introduit / de quantification tensorflow auxiliaire du nud de calcul. Par cons�quent, dans la pratique, nous ne en tant que proc�d� de compression de poids de r�seau quantifi�es, lorsque l'espace de stockage est limit� Peut ce faire, au moins c'est la technologie la plus avanc�e.

D'un autre point de vue, nous pouvons utiliser la m�thode pour acc�l�rer le d�lai d'ex�cution, cette m�thode ne modifie pas les param�tres du mod�le. De telles strat�gies sont employ�s � des fins g�n�rales multiplication des techniques de calcul (GEMM) entre une matrice � base d'optimisation pour affecter la couche de convolution (qui est typiquement calcul�e im2col + GEMM) et une couche reli�e � fond. De plus, l'emballage peut �tre utilis� pour acc�l�rer les r�seaux de neurones NNPACK, vous comprenez, l'id�e de base est d'utiliser Fourier rapide NNPACK op�ration de transformation de convolution dans le domaine temporel de conversion multiplication est devenu le domaine de fr�quence.

Une autre fa�on d'acc�l�rer la mise en uvre du cadre est la vitesse de la configuration du mod�le de r�seau et le poids est converti en optimis� pour le code de plate-forme cible, et le code, plut�t que de les laisser courir directement dans un certain cadre. Un exemple typique de cette approche est que TensorRT. Il CaffePresso, vous pouvez personnaliser Caffe dans les types de fichiers prototxt �tre applicable � une vari�t� de diff�rentes plates-formes mat�rielles baisse version de la sp�cification. Cependant, TensorRT besoin de courir CUDA, et ne peut �tre utilis� dans le GPU NVIDIA, et CaffePresso ont aussi besoin acc�l�rateur mat�riel (DSP, FPGA ou NoC), de sorte que ces deux m�thodes ne conviennent pas pour mon mat�riel de test - - tarte aux framboises.

Une fois le contenu ci-dessus �valuer soigneusement les solutions existantes, j'ai trouv� plusieurs fa�ons d'acc�l�rer le raisonnement populaire mod�les disponibles:

Si vous utilisez un OpenBLAS-cadre (impl�mentation open source assemblage de l'alg�bre lin�aire de base), vous pouvez essayer d'utiliser sa branche est optimis� pour l'apprentissage en profondeur: https://github.com/xianyi/OpenBLAS/tree/optimized_for_deeplearning
NNPACK avec quelques-uns des autres cadres (y compris la flamme, Caffe et MXNet) en combinaison: http: //github.com/Maratyszcza/NNPACK
Le tensorflow compil� en code objet dans la plate-forme Raspberry Pi, vous pouvez utiliser des options d'optimisation du compilateur, afin de profiter de jeu d'instructions NEON pour acc�l�rer la vitesse d'ex�cution du code objet: http: //github.com/tensorflow/tensorflow/tree/master / tensorflow / contrib / makefile # framboise-pi

Sur la base des m�thodes ci-dessus trois, je r�sume la configuration suivante Mise en service:

1. OpenBLAS utilis�s comme une branche principale d'arri�re-plan Caffe (Caffe-openblas);

2. OpenBLAS utilis�s comme une extr�mit� arri�re et une version OpenBLAS d'�tude approfondie optimis� branche Caffe (Caffe-openblas-dl);

3. Lors de la compilation tensorflow, en utilisant les drapeaux du compilateur d'optimisation optflags = "- Os" (tf-vanille)

4. Compile tensorflow, en utilisant un optflags de drapeau du compilateur = "optimisation - Os -mfpu = n�on vfpv4 -funsafe-math-optimisations -ftree-vectoriser" (tf-n�on-vfpv4)

5. En utilisant l'alg�bre lin�aire � un OpenBLAS de base d'assemblage vanille MXNet

6. Utilisation avec OpenBLAS, et une version optimis�e �tude approfondie branche MXNet (mxnet-openblas-dl).

Vous demandez peut-�tre: comment la configuration n'est pas NNPACK? Ceci est un peu compliqu�, la branche Caffe cr��e par ajtulloch fournit la m�thode la plus directe d'utilisation NNPACK. Toutefois, �tant donn� qu'il est int�gr� en elle, l'interface API NNPACK a �t� modifi�e, et � l'heure actuelle je ne peux pas le compiler. Caffe2 ont un support natif pour NNPACK, mais je ne consid�re pas Caffe2, parce qu'il est au stade exp�rimental et presque Caffe pas encore la reconstruction document�e. Une autre option consiste � utiliser la branche Maratyszcza caffe-nnpack, mais la branche est relativement ancienne et a �t� arr�t� pour l'entretien.

Un autre probl�me est hors de NNPACK lui-m�me. Il ne fournit que la configuration de la plate-forme Android / ARM compilateur crois� qui ne fournit pas un compilateur crois� sur la configuration de la plate-forme Linux / ARM. Combin� MXNet, je tente de compiler le code pour la plate-forme cible, mais les r�sultats ne peut pas fonctionner correctement sur la plate-forme cible. Je ne peux l'ex�cuter sur un ordinateur de bureau, mais je ne vois pas que OpenBLAS ont de meilleures performances. Depuis mon objectif �tait d'�valuer les solutions d�j� disponibles, donc je ne peut retarder NNPACK l'exp�rience.

Toutes ces m�thodes sont ex�cut�es CPU quad-core framboise 1,3 GHz et 1 Go de RAM tartes 3. Syst�me d'exploitation est 32 bits Raspbian, de sorte que le CPU ne d�tecte l'architecture ARMv8, mais l'architecture ARMv7. Les sp�cifications mat�rielles sont les suivantes:

Nom du mod�le: ARMv7 Processeur rev 4 (V7L)
BogoMIPS: 38.40
Caract�ristiques: demi-pouce fastmult edsp n�on vfpv3 tls vfpv4 Idiva idivt vfpd32 LPAE evtstrm crc32 VFP
CPU impl�menteur: 0x41
architecture CPU: 7
variante du processeur: 0x0
partie CPU: 0xd03
r�vision du CPU: 4

Pour �valuer la performance de chacun de la configuration de test ci-dessus, j'ai d�velopp� le programme de test sont comme suit: utiliser les m�mes r�seaux de neurones. 3 est une convolution de deux couches enti�rement connect�es et des couches et petit dans le r�seau neuronal convolutif avec le dessus de Softmax:

CONV1: 16 @ 7x7

relu1pool1: MAX PISCINE 2x2conv2: 48 @ 6x6

relu2pool2: MAX PISCINE 3x3conv3: 96 @ 5x5

relu3fc1: 128 unitsfc2: 848 unit�s

softmax

Le r�seau de neurones de convolution a l'argument 1.039.744. Bien que tr�s petit, mais il est d�j� assez fort, il peut utiliser pour effectuer de nombreux algorithmes de vision par ordinateur. Les utilisations du r�seau de formation t�che de reconnaissance Caffe, et le convertit au format tensorflow et MXNet d'�valuer ces cadres. Le num�ro de lot d'ex�cutions a une grande influence sur la performance, afin de mesurer en avant dans le temps (avant passer le temps), nous ex�cuterons le num�ro de lot est r�gl� sur 1-256. Dans l'ex�cution de lots � diff�rents moments, nous avons ex�cut� 100 fois chacun par l'avant et calcule le temps moyen de traitement par une image.

�valuation et discussion

Dans le tableau ci-dessous, �num�re le moyen terme � travers le temps. Dans lequel, A Caffe-openblas, B Caffe-openblas-dl, C nom tf-vanille, D est tf-n�on-vfpv4, E est mxnet-openblas, F est mxnet-openblas-dl.

Tableau 1 configuration de test des performances diff�rentes � des moments diff�rents du lot

La comparaison des diff�rentes configurations de l'�chelle lin�aire. La figure 1 par le temps

Sur une �chelle �chelle logarithmique Penchons-nous:

En comparant le nombre de configurations diff�rentes dans la figure. 2 par l'�chelle de temps

Les r�sultats du test m'a surpris. Tout d'abord, je ne pensais pas courir sur les performances du processeur MXNet sera si mauvais. Mais il semble avoir un probl�me bien connu. En outre, limit� par l'espace de stockage, il ne peut pas ex�cuter un lot de 256 images. La deuxi�me surprise est optimis� tensorflow tellement comme une bonne performance. Il est encore mieux que la performance de Caffe (num�ro de lot plus de 2), la lumi�re du point de vue de la trame d'origine est difficile de pr�dire l'issue. Il convient de noter que les ne peuvent pas �tre utilis�s sur une puce ARM drapeaux d'optimisation de configuration de test mentionn�s ci-dessus.

Caffe en raison de la tr�s rapide et est connu pour des id�es uniques. Si vous avez besoin de traitement continu d'images, vous pouvez choisir d'utiliser les Caffe optimis�s OpenBLAS, les meilleures performances de traitement disponibles. Si vous voulez am�liorer les performances de 10ms, vous devez faire est de vous suffit de saisir la commande suivante:

cd OpenBLAS

optimized_for_deeplearning caisse git

Pour mes recherches sur une chose formelle, il me reste beaucoup de travail � faire: �valuer plus de mod�les, et en fin de compte NNPACK int�gr�s, et plus cadre de recherche Int�gre back-end BLAS. Lei Feng r�seau J'esp�re que cela vous aidera � comprendre la vitesse actuelle du raisonnement des solutions les plus populaires.

Comment ex�cuter via les r�seaux de neurones profonds sur le mat�riel faible

Route de la soie

Apprenez � conna�tre la Chine

Faible mat�riel ne peut pas fonctionner avec la profondeur du r�seau de neurones? Il vous a appris � surmonter le probl�me � d'abattage de couteau de poulet du b�tail �

Comment optimiser le temps d'inf�rence?

�valuation et discussion