IPSC orale: Tsinghua propos� cadre discret SALAIRE, raisonnement formation sur les r�seaux de neurones combin�s

1 lit double Wu (� gauche) et Li Guoqi (c�t� droit) Figure - a engag� deux auteurs de l'article

�Ji-won nouveau rapport

Source: Tsinghua cerveau comme centre de recherche informatique

[New Ji-won EXAMEN Centre de recherche informatique de documents d'�tudiants de doctorat du cerveau � double classe Wu Universit� Tsinghua sont index�s ICLR2018 et a fait un rapport oral � la r�union. Jusqu'� pr�sent, ce sont les Chinois comme la premi�re unit� de signature est le seul inclus dans le rapport oral articles de la conf�rence de l'IPSC. Le rapport se concentre sur la fa�on de r�aliser la profondeur de r�seau de neurones discret est form� et le raisonnement, la facilit� de d�ploiement de syst�mes embarqu�s.

Adresse Papers: https: id = //openreview.net/forum HJGXzmspb?

IPSC sera en haut de la profondeur de champ d'�tude, appel�e la profondeur de l'apprentissage plus � roi sans couronne �, nous avons Google, Facebook, DeepMind, Amazon, IBM, et beaucoup d'autres l'attention des entreprises de haute technologie et la participation. ICLR2018 tenue dans le temps 30 Avril locale, 2018 au parc des expositions � Vancouver, au Canada, pour une p�riode de quatre jours. Le Pr�sident de la profondeur Assembl�e g�n�rale est Yoshua Bengio du champ d'�tude du Big Three (Universit� de Montr�al) et Yann LeCun (Universit� de New York et Facebook), la conf�rence a re�u plus d'un millier d'articles Contribuer articles, dont seulement 23 ont �t� pr�sent�s sur la base rapport oral de la r�union de l'article.

Titre �tudiants Wu Shuang comme " Formation et Inference avec Entiers dans les r�seaux de neurones profonds ".

l'architecture discr�te SALAIRE, la formation combin�e de raisonnement

Le rapport met l'accent sur Comment former et de raisonnement pour la profondeur des r�seaux de neurones discrets, pour faciliter le d�ploiement de dispositifs embarqu�s .

�tude approfondie dans le domaine, avec de hauts moyens de pr�cision qu'une grande surface, une forte consommation d'�nergie, ce qui conduit � des co�ts �lev�s, qui diff�re des exigences des syst�mes embarqu�s, des acc�l�rateurs mat�riels, et donc souvent faible mise en uvre du mat�riel de pr�cision puce neuromorphic. En ce qui concerne l'algorithme de faible pr�cision, les travaux ant�rieurs port� sur le droit du r�seau d'inf�rence avant et r�duire la valeur de la valeur re-activation, de sorte qu'il peut �tre d�ploy� sur un acc�l�rateur mat�riel et puce neuromorphic et r�seau de formation ou au moyen de haute pr�cision virgule flottante mise en uvre (GPU). Ce mode de s�paration du raisonnement souvent conduit � la formation et n�cessite beaucoup d'effort suppl�mentaire, une bonne formation pour le r�seau de conversion en virgule flottante � faible pr�cision, ce qui non seulement s�rieusement affect� le d�ploiement d'applications de r�seau de neurones, mais limite �galement l'am�lioration du c�t� de la demande en ligne.

Pour faire face � cette situation, nous vous proposons Une SALAIRE architecture discr�te combin�e, la premi�re fois que le processus de formation renversera discr�tes r�seaux neuronaux combin�es et raisonnement avant . Plus pr�cis�ment, que les poids de r�seau, la valeur d'activation, les erreurs d'inversion, les poids avec un gradient de faible expression des nombres entiers de pr�cision, en supprimant l'op�ration et des op�randes (tels que la normalisation du lot, etc.) est difficile � quantifier dans la formation du r�seau afin de r�aliser l'ensemble de processus de formation compl�t� par des entiers.

Trouv� dans l'ensemble de donn�es, la m�thode SALAIRE discr�te peut effectivement am�liorer la pr�cision. �tant donn� que cette m�thode peut r�pondre � l'acc�l�rateur d'apprentissage en profondeur et puce neuromorphic besoins de faible puissance et de formation inverse en m�me temps, nous avons la capacit� de rendre l'apprentissage en ligne plus efficace pour le multi-sc�ne avenir, vous pouvez migrer plusieurs objectifs, manuel d'apprentissage durable applications intelligentes seront d'une grande utilit�.

Toutes les couches cadre de formation et de raisonnement SALAIRE Poids (poids, W) , La valeur d'activation (activations, A) , Gradient (gradient G), et Erreur (erreurs, E) Limit� � faible entier. Tout d'abord, les op�randes, et une direction de changement de vitesse de maintien de l'application de cartographie lin�aire pour obtenir trois poids de yuan, pour l'activation entier accumul� et le gradient de 8 bits. En second lieu, pour le fonctionnement, la normalisation des lots remplac� par un facteur constant. D'autres techniques d'ajustement de fin (par exemple, ayant une dynamique et L2 r�gularisation optimisation SGD) peut �tre simplifi�e ou abandonn�e, une l�g�re baisse des performances. Compte tenu de l'ensemble de la communication de fa�on, nous avons simplifi� enti�rement raisonnement p�riode de comparaison cumulative, et ont �t� form�s pour avoir un fonctionnement � faible cycle de l'alignement de multiplication-accumulation (MAC).

Le cadre propos� �valu� sur MNIST, CIFAR10, SVHN, IMAGEnet ensemble de donn�es. En ce qui concerne les poids discrets et activ�s uniquement dans le cadre du raisonnement, SALAIRE ont une pr�cision comparable, et peut encore r�duire le surajustement. SALAIRE g�n�rer flux de donn�es pures entiers � faible pr�cision dans les deux sens DNN, qui peut �tre utilis� pour le mat�riel et le raisonnement sp�cialis� de formation. Nous avons publi� le code sur GitHub.

Figure 1

La figure 2: le proc�d� de quantification WAGE

les d�tails de mise en uvre

MNIST: En utilisant une variante de Lenet-5. taux d'apprentissage de salaire est maintenue tout au long des 1 � 100 �poques. Nous rapportons une pr�cision moyenne de l'ensemble de test � ex�cuter 10 fois sur.

SVHN & CIFAR10: Les m�thodes d'�valuation et le taux d'erreur m�me MNIST.

IMAGEnet: Utilisez l'�valuation du mod�le AlexNe sur le jeu de donn�es cadre SALAIRE ILSVRC12.

Tableau 1: WAGE et d'autres m�thodes sur une pluralit� d'ensembles de donn�es de test ou le taux d'erreur de v�rification (%)

Figure 3: Courbe de formation

Conclusions et travaux futurs

L'objectif de ce travail est de d�montrer l'application potentielle de formation faible nombre entier DNN et le raisonnement. Par rapport � FP16, arithm�tique entier 8 bits non seulement de r�duire la conception de la consommation d'�nergie et le co�t de la zone IC (environ 5 fois, voir le tableau 5), mais aussi de r�duire le co�t des besoins d'acc�s � la m�moire et la taille de la m�moire au cours de la formation, ce qui profitera grandement a �quipement mobile capacit� d'apprentissage sur place de. Il y a quelques points dans ce travail ne sont pas li�s au d�veloppement de l'algorithme futur et le d�ploiement de mat�riel pourraient �tre am�lior�s ou r�solus.

Tableau 5

WAGE les donn�es pures � faible nombre entier flux DNN pour former et raisonnement peut �tre obtenue. Nous introduisons une nouvelle m�thode d'initialisation et le facteur d'�chelle hi�rarchique constante pour remplacer la normalisation par lots, c'est un r�seau difficile quantifi�e. En outre, ainsi que discut� erreur gradient calcul des exigences de largeur de bit cumulatifs. Les r�sultats exp�rimentaux montrent que l'on peut quantifier la valeur relative du gradient, la majorit� de faible valeur et d�fausse l'ordre inverse de leur propagation. Bien que la convergence afin de stabiliser et par cons�quent la pr�cision du poids des mises � jour accumul�es sont essentielles, mais peut encore r�duire encore la compression et la consommation de m�moire lors de la formation. SALAIRE pluralit� de fichiers de donn�es pour obtenir la plus grande pr�cision. Par r�glage fin, la cartographie plus efficace, la normalisation des lots et d'autres m�thodes quantitatives, il y a des perspectives de travail suppl�mentaires. Dans l'ensemble, on n'a pas mis en avant un cadre flottant repr�sentation point, et montre le potentiel d'obtenir une formation discr�te et le raisonnement sur les entiers l�gers ASIC ou FPGA avec l'apprentissage bas� sur place.

[] Joignez-vous � la communaut�

Ji-won nouvelles technologies AI + industrie du recrutement communautaire, a accueilli les �tudiants + industrie de la technologie AI a atterri int�r�t, plus Little Helper Micro Signal: aiera2015_3 �Dans le groupe, si elle est approuv�e seront invit�s dans le groupe, assurez-vous de modifier les commentaires apr�s avoir rejoint un groupe communautaire (Nom - Soci�t� - emploi, groupe professionnel d'examen plus rigoureux, s'il vous pla�t comprendre).

Route de la soie

Apprenez � conna�tre la Chine

IPSC orale: Tsinghua propos� cadre discret SALAIRE, raisonnement formation sur les r�seaux de neurones combin�s