IPSC orale: Tsinghua proposé cadre discret SALAIRE, raisonnement formation sur les réseaux de neurones combinés

1 lit double Wu (à gauche) et Li Guoqi (côté droit) Figure - a engagé deux auteurs de l'article

 Ji-won nouveau rapport

Source: Tsinghua cerveau comme centre de recherche informatique

[New Ji-won EXAMEN Centre de recherche informatique de documents d'étudiants de doctorat du cerveau à double classe Wu Université Tsinghua sont indexés ICLR2018 et a fait un rapport oral à la réunion. Jusqu'à présent, ce sont les Chinois comme la première unité de signature est le seul inclus dans le rapport oral articles de la conférence de l'IPSC. Le rapport se concentre sur la façon de réaliser la profondeur de réseau de neurones discret est formé et le raisonnement, la facilité de déploiement de systèmes embarqués.

Adresse Papers: https: id = //openreview.net/forum HJGXzmspb?

IPSC sera en haut de la profondeur de champ d'étude, appelée la profondeur de l'apprentissage plus « roi sans couronne », nous avons Google, Facebook, DeepMind, Amazon, IBM, et beaucoup d'autres l'attention des entreprises de haute technologie et la participation. ICLR2018 tenue dans le temps 30 Avril locale, 2018 au parc des expositions à Vancouver, au Canada, pour une période de quatre jours. Le Président de la profondeur Assemblée générale est Yoshua Bengio du champ d'étude du Big Three (Université de Montréal) et Yann LeCun (Université de New York et Facebook), la conférence a reçu plus d'un millier d'articles Contribuer articles, dont seulement 23 ont été présentés sur la base rapport oral de la réunion de l'article.

Titre étudiants Wu Shuang comme " Formation et Inference avec Entiers dans les réseaux de neurones profonds ".

l'architecture discrète SALAIRE, la formation combinée de raisonnement

Le rapport met l'accent sur Comment former et de raisonnement pour la profondeur des réseaux de neurones discrets, pour faciliter le déploiement de dispositifs embarqués .

étude approfondie dans le domaine, avec de hauts moyens de précision qu'une grande surface, une forte consommation d'énergie, ce qui conduit à des coûts élevés, qui diffère des exigences des systèmes embarqués, des accélérateurs matériels, et donc souvent faible mise en uvre du matériel de précision puce neuromorphic. En ce qui concerne l'algorithme de faible précision, les travaux antérieurs porté sur le droit du réseau d'inférence avant et réduire la valeur de la valeur re-activation, de sorte qu'il peut être déployé sur un accélérateur matériel et puce neuromorphic et réseau de formation ou au moyen de haute précision virgule flottante mise en uvre (GPU). Ce mode de séparation du raisonnement souvent conduit à la formation et nécessite beaucoup d'effort supplémentaire, une bonne formation pour le réseau de conversion en virgule flottante à faible précision, ce qui non seulement sérieusement affecté le déploiement d'applications de réseau de neurones, mais limite également l'amélioration du côté de la demande en ligne.

Pour faire face à cette situation, nous vous proposons Une SALAIRE architecture discrète combinée, la première fois que le processus de formation renversera discrètes réseaux neuronaux combinées et raisonnement avant . Plus précisément, que les poids de réseau, la valeur d'activation, les erreurs d'inversion, les poids avec un gradient de faible expression des nombres entiers de précision, en supprimant l'opération et des opérandes (tels que la normalisation du lot, etc.) est difficile à quantifier dans la formation du réseau afin de réaliser l'ensemble de processus de formation complété par des entiers.

Trouvé dans l'ensemble de données, la méthode SALAIRE discrète peut effectivement améliorer la précision. Étant donné que cette méthode peut répondre à l'accélérateur d'apprentissage en profondeur et puce neuromorphic besoins de faible puissance et de formation inverse en même temps, nous avons la capacité de rendre l'apprentissage en ligne plus efficace pour le multi-scène avenir, vous pouvez migrer plusieurs objectifs, manuel d'apprentissage durable applications intelligentes seront d'une grande utilité.

Toutes les couches cadre de formation et de raisonnement SALAIRE Poids (poids, W) , La valeur d'activation (activations, A) , Gradient (gradient G), et Erreur (erreurs, E) Limité à faible entier. Tout d'abord, les opérandes, et une direction de changement de vitesse de maintien de l'application de cartographie linéaire pour obtenir trois poids de yuan, pour l'activation entier accumulé et le gradient de 8 bits. En second lieu, pour le fonctionnement, la normalisation des lots remplacé par un facteur constant. D'autres techniques d'ajustement de fin (par exemple, ayant une dynamique et L2 régularisation optimisation SGD) peut être simplifiée ou abandonnée, une légère baisse des performances. Compte tenu de l'ensemble de la communication de façon, nous avons simplifié entièrement raisonnement période de comparaison cumulative, et ont été formés pour avoir un fonctionnement à faible cycle de l'alignement de multiplication-accumulation (MAC).

Le cadre proposé évalué sur MNIST, CIFAR10, SVHN, IMAGEnet ensemble de données. En ce qui concerne les poids discrets et activés uniquement dans le cadre du raisonnement, SALAIRE ont une précision comparable, et peut encore réduire le surajustement. SALAIRE générer flux de données pures entiers à faible précision dans les deux sens DNN, qui peut être utilisé pour le matériel et le raisonnement spécialisé de formation. Nous avons publié le code sur GitHub.

Figure 1

La figure 2: le procédé de quantification WAGE

les détails de mise en uvre

MNIST: En utilisant une variante de Lenet-5. taux d'apprentissage de salaire est maintenue tout au long des 1 à 100 époques. Nous rapportons une précision moyenne de l'ensemble de test à exécuter 10 fois sur.

SVHN & CIFAR10: Les méthodes d'évaluation et le taux d'erreur même MNIST.

IMAGEnet: Utilisez l'évaluation du modèle AlexNe sur le jeu de données cadre SALAIRE ILSVRC12.

Tableau 1: WAGE et d'autres méthodes sur une pluralité d'ensembles de données de test ou le taux d'erreur de vérification (%)

Figure 3: Courbe de formation

Conclusions et travaux futurs

L'objectif de ce travail est de démontrer l'application potentielle de formation faible nombre entier DNN et le raisonnement. Par rapport à FP16, arithmétique entier 8 bits non seulement de réduire la conception de la consommation d'énergie et le coût de la zone IC (environ 5 fois, voir le tableau 5), mais aussi de réduire le coût des besoins d'accès à la mémoire et la taille de la mémoire au cours de la formation, ce qui profitera grandement a équipement mobile capacité d'apprentissage sur place de. Il y a quelques points dans ce travail ne sont pas liés au développement de l'algorithme futur et le déploiement de matériel pourraient être améliorés ou résolus.

Tableau 5

WAGE les données pures à faible nombre entier flux DNN pour former et raisonnement peut être obtenue. Nous introduisons une nouvelle méthode d'initialisation et le facteur d'échelle hiérarchique constante pour remplacer la normalisation par lots, c'est un réseau difficile quantifiée. En outre, ainsi que discuté erreur gradient calcul des exigences de largeur de bit cumulatifs. Les résultats expérimentaux montrent que l'on peut quantifier la valeur relative du gradient, la majorité de faible valeur et défausse l'ordre inverse de leur propagation. Bien que la convergence afin de stabiliser et par conséquent la précision du poids des mises à jour accumulées sont essentielles, mais peut encore réduire encore la compression et la consommation de mémoire lors de la formation. SALAIRE pluralité de fichiers de données pour obtenir la plus grande précision. Par réglage fin, la cartographie plus efficace, la normalisation des lots et d'autres méthodes quantitatives, il y a des perspectives de travail supplémentaires. Dans l'ensemble, on n'a pas mis en avant un cadre flottant représentation point, et montre le potentiel d'obtenir une formation discrète et le raisonnement sur les entiers légers ASIC ou FPGA avec l'apprentissage basé sur place.

[] Joignez-vous à la communauté

Ji-won nouvelles technologies AI + industrie du recrutement communautaire, a accueilli les étudiants + industrie de la technologie AI a atterri intérêt, plus Little Helper Micro Signal: aiera2015_3  Dans le groupe, si elle est approuvée seront invités dans le groupe, assurez-vous de modifier les commentaires après avoir rejoint un groupe communautaire (Nom - Société - emploi, groupe professionnel d'examen plus rigoureux, s'il vous plaît comprendre).

Vimicro gagner des concours internationaux algorithmes d'intelligence artificielle, le taux de précision de détection d'objets de gagner une étape
Précédent
Haut débit, chauffeur de bus soudaine infarctus cérébral ...... deux étapes, il a sauvé des dizaines de vies!
Prochain
Pour Yunnan, le lac ne sais pas! Cet endroit vaut Fairyland Fam.
« Vous mentez, ce n'est pas mon père! »
Comment faire pousser du poivre ? Explication détaillée de l'ensemble des techniques de culture du poivre !
10 fois que la grosse suisse, par maquillage avec l'Islande, N années consécutives comme pays le plus vivable du monde
Au-delà du Sichuan-Hunan, Jiangxi ignoré est le plus épicé Spicy provinces chinoises
Google TPU version 3.0 lourd, robot de conférence I / O vraiment jouer à Call!
Sur les maladies des semis de melon technologie de contrôle intégré
Plus tôt la vie obtenir un prix abordable, nous allons aller au bout d'une demi-vie, poèmes dix, le lire soulagées
Shandong se laissé derrière deux défaites, la victoire du Liaoning au-dessus du sommet, Pékin grand à l'extérieur dans un nombre record de 17 coups
le suivi de l'aide Cui (trois) - faire hiver clair
Bataille des géants des marchés d'affaires
A été « bonne » célèbre Hyatt, cette fois au monde en Mars du printemps à manger dans la bouche