Stanford IPSC 2018 articles accept�s: convolution efficace Sparse Winograd r�seau de neurones

Lei Feng r�seau AI Technology Review par: IPSC 2018 qui se tiendra au d�but du mois de mai � Vancouver, au Canada. Papier � efficace Sparse-Winograd Convolutif Neural Networks' sont engag�s IPSC 2018, le premier auteur, l'Universit� de Stanford �tudiant au doctorat Liu Xingyu a �crit le manuscrit pour l'interpr�tation exclusive de Lei Feng r�seau AI Technology Review, Tous droits r�serv�s.

introduction

Circonvolution r�seau de neurones refl�te les avantages �normes dans de nombreuses applications d'apprentissage de la machine. Calcul des performances et de la consommation d'�nergie est principalement d�termin�e par le nombre d'op�ration de multiplication de convolution. Cependant, l'�norme quantit� de calcul de convolution r�seau de neurones limite son application sur un dispositif mobile.

Il existe deux m�thodes principales pour r�duire le nombre de multiplications CONVOLUTIONNELS r�seau de neurones:

1) � l'aide des propri�t�s alg�briques lin�aires de convolution, la convolution par exemple Winograd algorithme permet de r�duire le nombre de multiplications par la transformation lin�aire et les neurones du noyau de convolution;
2) la compression du r�seau de neurones, par exemple, par l'utilisation de poids et les neurones dans le sparsity �lagage cha�nons depuis g�n�r� sparsity RELU.

Cependant, les deux directions incompatibles mentionn�es ci-dessus: une transformation lin�aire des neurones et leur noyau de convolution feront l'absence de parcimonie d'origine, il ne peut pas �tre utilis� pour acc�l�rer la parcimonie. Utilisez l'algorithme de convolution Winograd sur le r�seau de neurones rares de convolution, mais augmentera la quantit� de calcul.

En r�ponse � ces probl�mes, ce document propose deux am�liorations.

Tout d'abord, nous allons passer le domaine de la fonction d'activation Winograd Relu si nerveux quand la multiplication yuan est rare;
D'autre part, nous sommes � droite apr�s la Winograd transformer la taille lourde, de sorte que lorsque le droit d'exploiter la multiplication lourde est clairsem�e.

Les r�sultats exp�rimentaux montrent que la perte de pr�cision de 0,1%, le nouveau proc�d� propos� permet de r�duire le nombre de multiplications respectivement 10,4 fois, 6,8 fois et 10,8 fois dans le ICRA-10, ICRA-100 et IMAGEnet rapport de r�duction ensemble de donn�es par rapport � multiplier par rapport � la version 2.0 d'origine � 3,0 fois la mise � niveau de r�f�rence.

convolution Sparse Winograd

Traditionnellement algorithme de convolution Winograd � effet de champ d'entr�e de taille de cellule de base dans laquelle d est PXP pi�ces de figure, apr�s un domaine temporel du noyau 3 x 3 convolution convolution de g (P-2) x (p-2) le bloc de sortie S. Tous les blocs de sortie correspondent ensemble pour obtenir la caract�ristique de sortie de la Fig.

Pour ce faire: d et g, respectivement la matrice de transformation G et B obtenus B p x p et la taille de domaine Winograd ^ TdB ggg ^ T, avec la multiplication de la matrice de Hadamard transform�e A ont �t� obtenus apr�s deux S. Lorsque p est �gal � 4, les matrices B et A contient uniquement des �l�ments 0, 1 et -1, de sorte que la multiplication de A et B ne n�cessite que l'addition et la soustraction. Formule de calcul ci-dessous:

Temps r�seau la taille du domaine: Lors de l'utilisation r�seau d'�lagage ordinaire (Han et al. 2015) lorsque, RELU effet de la fonction d'activation de la couche pr�c�dente de l'entr�e dans le domaine temporel d, g poids du domaine simultan�ment est taill�. Le bloc de sortie S est calcul�e par l'�quation suivante:

Lorsque le calcul comme repr�sent� sur la Fig. 4 p =. Bien que d et g, respectivement, en raison RELU et la taille sont rares, cependant, G () G ^ T ^ T et B () Temps B domaine de transformation efface 0. Par cons�quent, la faible densit� de r�duire le nombre de multiplications.

Winograd r�seau d'�lagage local: Lors de l'utilisation du Winograd �lagage r�seau local (Liu et al. 2017, Li et al. 2017) lorsque, l'effet RELU de la fonction d'activation de la couche pr�c�dente de l'entr�e de domaine de temps d, alors que les coefficients de pond�ration domaine Winograd ggg ^ T est taill�. Le bloc de sortie S est calcul� par la formule suivante

Lorsque le calcul comme repr�sent� sur la Fig. 4 p =. Bien que les poids �lagage Winograd poids ggg ^ T de domaine sont rares, cependant, B ^ T () B-domaine de transformation efface d 0 contenu. Par cons�quent, le domaine temporel d Relu due sparsity ne peut toujours pas apporter de r�duire le nombre de multiplications.

convolution Winograd-RELU r�seau neuronal: Pour r�soudre ce probl�me, nous proposons convolution Winograd-Relu r�seau de neurones. Nous Relu d'exploitation sur le domaine Winograd plut�t que le domaine temporel. Ainsi, lors de l'op�ration de multiplication, poids lourd Winograd domaine ggg ^ T et l'entr�e B ^ BDT sont rares, le nombre de multiplications peuvent �tre encore r�duits. Le bloc de sortie S est calcul� par la formule suivante

Lorsque le calcul comme repr�sent� sur la Fig. 4 p =.

Il est int�ressant de noter que nous avons compl�tement abandonn� le temps noyau de convolution de domaine. Parce que RELU couche convolutionnel est li�e � la pr�c�dente, l'op�ration de domaine Relu Winograd est effectivement d�marr� � partir de la deuxi�me couche. Il est � noter que la nouvelle architecture de r�seau de neurones convolutionnels propos�s et les r�seaux de neurones convolution g�n�rale ne sont pas �quivalents en math�matiques. Par cons�quent, la formation, la taille et les r�seaux de nouvelle formation doivent �tre modifi�s comme suit.

formation: Nous noyau de convolution directe apr�s Winograd transformer la formation de domaine. Apr�s l'optimisation du noyau de convolution initialisation al�atoire calcul� directement � partir de la r�tro-propagation de gradient.

Taille: Nous convolution de domaine Winograd de taille: la valeur absolue de tous les �l�ments est inf�rieure � la valeur de seuil t est r�gl� sur 0. Atteint est obtenu en �laguant un taux requis r calcul� la valeur de seuil t. Dans nos exp�riences, la taille de toutes les couches est le m�me.

La formation de poids: Nous utilisons le masque avant l'�tape d'�lagage pour obtenir le recyclage. Dans le processus de formation re, des poids sont taill�es forc�es � 0 par le masque. gradient de la fonction de perte de calcul de neurones d'entr�e du r�seau et des gradients de pond�ration dans le domaine Winograd peuvent �tre transmis par l'amont � travers les rendements de la r�gle de la cha�ne:

Exp�riences et r�sultats

Nous la m�thode ci-dessus est appliqu�e � diff�rents ensembles de donn�es de diff�rentes architectures de r�seau. Nous avons choisi l'infrastructure de r�seau exp�rimental dans la plupart de la taille du noyau de convolution 3x3, qui peut garantir la couche la plus de convolution peut �tre convertie en couche de convolution Winograd. Nous classons les ensembles de donn�es d'image ont �t� utilis�s 10 ICRA, et 100-ICRA exp�rience IMAGEnet. Chaque architecture de r�seau, nous comparons ce qui pr�c�de trois types de r�seaux. Trois types de r�seaux commencent � partir de z�ro et de la formation it�rative taille - processus de re-formation.

10-ICRA:

Nous utilisons des exp�riences de r�seau VGG-nagadomi. VGG-nagadomi peut �tre consid�r� comme l�ger VGGNet, dans lequel la couche 8 couche de convolution 3x3. Nous d�s la premi�re couche de forte densit� de 80%, la couche restante la taille it�rativement de 80% � 20%.

Peut �tre vu de la figure, lorsque la perte est inf�rieure � taux de pr�cision de 0,1%, la taille du r�seau dans le domaine temporel, pruneau Winograd r�seau local peut �tre �lagu� � seulement 60% la densit�, nous avons propos� r�seau Winograd-Relu peut �tre �lagu� � densit� de 40%.

Le tableau compare la quantit� calcul�e du r�seau et d'un poids et les neurones d'entr�e respectifs apr�s densit� �lagage. temps �mondage r�seau de domaine, la taille Winograd r�seau local peut �tre calcul� seulement � r�duire la quantit� de 5,1 et 3,7 fois, respectivement. Et nous avons propos� r�seau Winograd-Relu peut r�duire une quantit� de calcul 13,3 fois, par rapport aux deux r�seaux de r�f�rence de mise � niveau 2.6 et 3,6 fois, respectivement.

-100 ICRA:

Nous utilisons des exp�riences de r�seau ConvPool-CNN-C. ConvPool-CNN-C 9 Les couches de convolution, qui convolution 3x3 sept couches. Nous d�s la premi�re couche de forte densit� de 80%, la couche restante la taille it�rativement de 80% � 20%.

Peut �tre vu de la figure, lorsque la perte de vitesse de pr�cision inf�rieure � 0,1%, Winograd la taille r�seau local peut �tre �lagu� � la densit� de 70%, tandis que le domaine du r�seau et la taille de notre r�seau Winograd-Relu propos� peut �tre �lagu�s � 60 densit�%.

Le tableau compare la quantit� calcul�e du r�seau et d'un poids et les neurones d'entr�e respectifs apr�s densit� �lagage. temps �mondage r�seau de domaine, la taille Winograd r�seau local peut �tre calcul� seulement � r�duire la quantit� de 3,5 et 3,2 fois, respectivement. Et nous avons propos� r�seau Winograd-Relu peut r�duire la quantit� de calcul 7,1 fois, par rapport � deux r�seaux de r�f�rence de mise � niveau respectivement 2,1 et 2,2 fois.

IMAGEnet:

Nous r�seau RESNET-18 en utilisant une variante de l'exp�rience. La diff�rence entre la variante originale ResNet-18 est que nous utilisons 1x13x3 �tape de convolution et une couche de cellules pour remplacer 2x22x23x3 �tape de convolution. Nous avons �galement enlev� la derni�re piscine de la couche, de sorte que la taille du dernier groupe d'une couche de convolution est 14x14. Nous allons re-densit� poids de convolution couche la taille it�rativement de 80% � 10%.

Peut �tre vu de la figure, lorsque la perte est inf�rieure � taux de pr�cision de 0,1%, le temps r�seau d'�lagage de domaine, Winograd la taille du r�seau local ne peut �tre �lagu� respectivement 60% et 50% de la densit�, nous avons propos� le r�seau peut Winograd-Relu taill�s � 30% / densit� de 35%.

Le tableau compare la quantit� calcul�e du r�seau et d'un poids et les neurones d'entr�e respectifs apr�s densit� �lagage. �lagage temps r�seau de domaine, la taille Winograd r�seau local peut �tre calcul� seulement � r�duire le montant de 5,1 et 4,5 fois, respectivement. Et nous avons propos� r�seau Winograd-Relu peut r�duire la quantit� de calcul 13,2 fois, par rapport � deux r�seaux de r�f�rence de mise � niveau 2.6 et 2,9 fois respectivement.

discuter

Nous visualisons noyau de convolution propos� r�seau Winograd-Relu. Nous avons choisi le premier six canaux d'entr�e et de sortie de la couche res2a_2a. On peut voir le noyau de convolution r�seau Winograd-Relu ne montre pas de signification physique �vidente. Cependant, nous avons trouv� (2,2) �l�ment (de gauche � droite et de haut en bas, l'objectif initial de 1) est habituellement plus important que les autres �l�ments. Une raison possible est que, (2,2) des �l�ments dans les neurones d'entr�e est un champ particulier dans Winograd: il est le seul dans les neurones B ^ TDB seulement et non pour la soustraction par l'additionneur lin�aire transformation. caract�ristique entr�e lisser la figure, ces moyens (2,2) est le seul �l�ment de l'�l�ment a une moyenne non nulle.

Route de la soie

Apprenez � conna�tre la Chine

Stanford IPSC 2018 articles accept�s: convolution efficace Sparse Winograd r�seau de neurones | IPSC 2018

introduction

convolution Sparse Winograd

Exp�riences et r�sultats

discuter