Distribu� apprentissage en profondeur de nouveaux progr�s: laisser la � distribution � et � l'apprentissage en profondeur � profondeur r�elle d'int�gration

Ji-won nouvelle recommandation

Source: gros titres Microsoft Research IA (ID: MSRAsia)

Auteur: Chen Wei

[New Ji-won EXAMEN Ces derni�res ann�es, l'apprentissage en profondeur en PNL, reconnaissance d'image, reconnaissance vocale, la traduction automatique a fait des r�alisations �tonnantes. Toutefois, le champ d'application de la profondeur de l'apprentissage est de plus en plus limit�e par la quantit� de donn�es et la taille du mod�le. Comment peut efficacement la formation de mod�le d'apprentissage profondeur? Microsoft Research Asia, le groupe en charge du chercheur apprentissage de la machine Chen Wei et son �quipe bas�e sur une compr�hension compl�te de l'apprentissage de la machine, sera �troitement int�gr�e avec la technologie distribu�e et la profondeur de l'apprentissage, l'exploration de nouvelles r�el combin� � distribu� apprentissage en profondeur � algorithme .

Avec l'�mergence de grands volumes de donn�es et de ressources informatique efficace, l'apprentissage en profondeur dans de nombreux domaines de l'intelligence artificielle, nous avons fait une perc�e majeure. Cependant, face � des t�ches de plus en plus complexes, La taille et la profondeur des mod�les de donn�es d'apprentissage sont devenus de plus en plus grand . Par exemple, le classificateur d'image est utilis�e pour les �tiquettes de donn�es d'image de train sont �lev�s � des millions, voire des dizaines de millions d'exemplaires. donn�es de formation � grande �chelle fournis pour former un grand mod�le de la base mat�rielle, donc au cours des derni�res ann�es, l'�mergence d'un grand nombre de mod�les d'apprentissage de la machine � grande �chelle, telles que 2015, Microsoft Research Asia a d�velopp� plus de vingt milliards de param�tres du mod�le th�matique LightLDA . Cependant, Lors de l'augmentation des vocabulaires de donn�es de formation quand des millions, sinon faire un processus d'�lagage, le mod�le d'apprentissage en profondeur peut avoir des milliards, voire des centaines de milliards de param�tres m�me .

Afin d'am�liorer l'efficacit� du mod�le de formation d'apprentissage en profondeur, r�duire le temps de formation, nous allons g�n�ralement utiliser la mission de formation de la technologie distribu�e - de travailler simultan�ment avec plusieurs nuds, distribu�s, efficacement form� d'excellentes performances du mod�le de r�seau de neurones. La technologie de l'acc�l�rateur distribu� est la profondeur de la technologie d'apprentissage , Peut am�liorer consid�rablement l'efficacit� de la profondeur de la formation pour apprendre, pour augmenter encore son champ d'application.

profondeur cible de l'apprentissage de l'exploration de donn�es est une loi pour nous aider � pr�voir. Cadre g�n�ral pour l'algorithme d'apprentissage en profondeur est d'utiliser un algorithme d'optimisation it�rative pour minimiser le risque sur l'exp�rience des donn�es de formation. En raison de la nature statistique des donn�es, plus le degr� de flexibilit� lors de l'optimisation de la convergence de la nature, la nature de l'apprentissage et la g�n�ralisation de l'ex�cution dans plusieurs machines par rapport � d'autres t�ches informatiques, l'algorithme d'apprentissage en profondeur n'a pas besoin en fait l'ex�cution du processus de parall�lisation nuds de calcul ex�cutent une version autonome de l'algorithme strictement par la communication. Ainsi, lorsque le � distribu� � rencontre � l'apprentissage en profondeur �, ne doit pas se limiter � l'algorithme de s�rie pour atteindre plusieurs machines ainsi que la technologie de mise en uvre sous-jacente, nous devrions �tre fond�e sur une connaissance approfondie de l'apprentissage de la machine, L'int�gration �troite de distribution et de la profondeur de l'apprentissage ensemble, combinant les caract�ristiques de la conception de l'apprentissage en profondeur � Distributed apprentissage en profondeur � algorithme dans l'un des nouveaux r�el.

profondeur Figure cadre d'apprentissage distribu� 1

cadre distribu� apprentissage profond, comprenant un ensemble de donn�es / segmentation du mod�le, autonome formation d'algorithme d'optimisation locale, un m�canisme de communication et des donn�es / modules de polym�risation du mod�le. Les algorithmes utilisent g�n�ralement la distribution de donn�es classique brouill�s segmentation au hasard, un algorithme d'apprentissage de l'algorithme d'optimisation stochastique locale (par exemple la m�thode du gradient stochastique), la communication synchrone ou asynchrone, et les param�tres du proc�d� de polym�risation moyen du mod�le.

Les caract�ristiques des algorithmes d'apprentissage en profondeur, l'apprentissage machine, Microsoft Research Asia, le groupe re-conception / compr�hension de ces modules, nous faisons principalement trois domaines de travail dans le domaine de l'�tude approfondie distribu�e: Le premier emploi pour le probl�me de retard de gradient de m�canismes asynchrones, nous avons con�u le � algorithme asynchrone avec compensation de retard � pour l'apprentissage en profondeur ; Le deuxi�me travail, avis de nature non-convexe du r�seau de neurones, nous proposons plus efficace que les param�tres moyens d'agr�gation int�gr� et con�u l ' � int�gration - Compression � algorithme d'apprentissage en profondeur parall�le ; Le troisi�me ouvrage, nous avons d'abord analys� le taux d'�tude approfondie distribu�e de convergence de l'algorithme de brouillage al�atoire des mod�les segment�s, fournir une orientation th�orique pour la conception de l'algorithme .

algorithme DC-ASGD: gradient compensation de retard de communication asynchrone

descente de gradient Stochastique (SGD) est l'un des plus algorithme d'optimisation de l'apprentissage en profondeur populaire, la formule de mise � jour est le suivant:

formule 1

Dans lequel, en poids du mod�le actuel, (xt, yt) de donn�es al�atoires, g (poids; xt, yt) � (xt, yt) gradient de la fonction de perte de l'exp�rience correspondant au mod�le actuel en poids est, est la longueur de l'�tape / le taux d'apprentissage.

Supposons que le syst�me comporte une pluralit� de noeuds de travail d'optimisation du mod�le de r�seau de neurones en parall�le en utilisant la m�thode du gradient stochastique, communication synchrone et asynchrone sont deux m�canismes de synchronisation commun.

m�thode de descente de gradient stochastique synchrone (Synchronous SGD) � chaque it�ration de l'optimisation, il attend l'ach�vement de toutes les de calcul de gradient noeuds de calcul, et la calcul�e sur chaque gradient stochastique de noeud de travail cumul�, et un mod�le moyen est mis � jour selon la formule 1. Puis, apr�s avoir re�u un nuds de travailleur mod�le mis � jour et dans la prochaine it�ration. Depuis Sync SGD pour attendre l'ach�vement de tous les noeuds de calcul de gradient de calcul, donc comme effet de barillet, Sync vitesse de calcul SGD sera plus faible noeud de travail de l'efficacit� des op�rations de d�placement.

Proc�d� d'algorithme du gradient stochastique asynchrone (Asynchronous SGD) � chaque it�ration, chaque noeud de travail dans le calcul de la mise � jour du gradient stochastique directement sur le mod�le, sans attendre l'ach�vement de tous les noeuds de calcul calcul de gradient. Ainsi, l'est aussi largement utilis� al�atoire la vitesse de descente de gradient it�ratif asynchrone plus rapide, pour former le r�seau de neurones en profondeur. Cependant, Async SGD peut �tre rapide, mais le gradient est utilis� pour mettre � jour le mod�le de retard, aura une incidence sur la pr�cision de l'algorithme. Quel est le � retard gradient �? Nous regardons le tableau.

descente de gradient stochastique figure 2 Asynchrone

Async SGD Pendant le fonctionnement, un noeud travailleur (m) de travail acquise lors du d�marrage du t-i�me it�ration les plus r�centes donn�es et les param�tres du mod�le wt (xt, yt), calculer le gradient stochastique correspondant gt, et le retourne et mises � jour du mod�le global w. �tant donn� que le calcul du gradient n�cessite un certain temps, lorsque les rendements des noeuds de travail gradient stochastique gt, mod�le poids nuds autres travaux ont �t� mis � jour autour de [tau], devient le poids + . En d'autres termes, la formule de mise � jour Async SGD est:

L'�quation 2

Comparatif formule 1, la formule 2 est un g de gradient stochastique des mises � jour du mod�le utilis� par wt + (p; xt, yt), g de gradient stochastique (wt + qui doit �tre utilis� par rapport � SGD; xt + , yt + ) le retard [tau] g�n�r� � l'�tape. Par cons�quent, nous appelons gradient al�atoire Async SGD, "retard gradient".

Le plus gros probl�me caus� par le retard de gradient est d� mettre � jour le mod�le chaque fois que le gradient n'est pas le gradient correct (S'il vous pla�t noter que g (poids, xt, yt) g (poids + ; xt + , yt + ) ), ce qui dans le mod�le de dommages pr�cision Async SGD, et ce ph�nom�ne augmente � mesure que le nombre de machines deviendra de plus en plus graves. Comme on le voit ci-dessous, augmente � mesure que le nombre de noeuds de calcul, la pr�cision Async SGD devient pire.

La figure 3 performances m�thode asynchrone algorithme du gradient stochastique

Alors, comment faire la descente de gradient stochastique asynchrone, tout en maintenant la vitesse de formation, une plus grande pr�cision de celui-ci? Nous avons con�u un gradient DC-ASGD (Async SGD retard est compens�) algorithme peut compenser le retard.

Afin d'�tudier la relation entre (p + ) et le gradient de retard g (en poids) g de gradient correct, nous allons g (wt + ) d�veloppement de Taylor en poids de:

Dans lequel, g (en poids) gradient gradient, � savoir la fonction de perte Hessien, H (g (p)) en tant que gradient de la matrice de Hesse. De toute �vidence, le gradient de retard est en fait vrai approximation d'ordre z�ro du gradient, tandis que le reste de la cause du retard. Ainsi, une id�e naturelle est que si nous tous les termes d'ordre sup�rieur sont calcul�s, le d�lai peut �tre corrig� par le gradient pr�cis gradient. Toutefois, �tant donn� que les autres ont une dur�e illimit�e, il ne peut pas �tre calcul� avec pr�cision. Par cons�quent, nous avons choisi comme premier terme de compensation de retard de l'ordre dans l'�quation ci-dessus:

Comme nous le savons tous, il y a un million ou plusieurs param�tres en profondeur moderne mod�le de r�seau de neurones, l'informatique et le stockage Hessien g (en poids) est devenu presque une chose ne peut pas �tre remplie. Ainsi, pour trouver une bonne approximation d'une matrice hessienne est la cl� pour compenser le retard de gradient. matrice d'information de Fisher est d�fini en fonction du gradient de la matrice de produit externe

Il est une estimation non biais�e de la asymptotiquement Hessien, nous avons donc choisi d'utiliser G (en poids) pour approcher Hessien. Selon des �tudes ant�rieures, si l'�l�ment en diagonale dans la matrice hessienne est approch�e en utilisant la matrice hessienne du mod�le de r�seau de neurones, une r�duction significative de la complexit� de calcul et ses coll�gues m�moire en maintenant toujours la pr�cision de l'algorithme, donc nous diag employ�e (G (poids)) en tant que matrice Hessian approximatif. Afin de r�duire davantage l'approximation de la variance, on utilise entre un param�tre (0,1> pour ajuster l'�cart et de la variance. En r�sum�, nous avons con�u le proc�d� de descente de gradient stochastique asynchrone suite � la compensation de retard (DC-ASGD),

Dans lequel le gradient de la p�riode de compensation de retard g (en poids) ne contient que les informations d'une �tape, presque pas d'augmentation des co�ts de calcul et de stockage.

Nous algorithme DC-ASGD est �valu�e sur des ensembles de donn�es CIFAR10 IMAGEnet et ensembles de donn�es, les r�sultats voient les deux chiffres suivants.

Figure 4 formation DC-ASGD / erreur test _CIFAR-10

Figure 5 erreur de formation / test DC-ASGD _ImageNet

On peut observer, algorithme DC-ASGD par rapport � l'algorithme Async SGD, la pr�cision du mod�le obtenu en m�me temps nettement am�lior�e, et aussi plus �lev� que Sync SGD, SGD obtenir sensiblement la m�me pr�cision du mod�le.

Ensemble-Compression Algorithm: mod�le de processus de polym�risation non convexe am�lior�e

Le param�tre est la profondeur moyenne d'un mod�le d'algorithme d'apprentissage existant distribu� proc�d� de polym�risation tr�s commun. Si la fonction de perte est convexe sur les param�tres du mod�le, l'in�galit� suivante est:

Dans laquelle, K est le nombre de noeuds de calcul, wk est un mod�le local,

Les param�tres moyens du mod�le, (x, y) est une donn�e d'�chantillon arbitraire. L'extr�mit� gauche de l'in�galit� correspondant � une fonction de perte de mod�le moyenne, la valeur de fonction de co�t est la moyenne de l'extr�mit� droite de chaque mod�le local. Voir, les projections de probl�mes peuvent maintenir les param�tres de performance moyenne du mod�le.

Cependant, le mod�le de r�seau de neurones pour non-convexe, plus l'in�galit� ne sera plus prise, et donc la performance du mod�le moyen n'est plus garanti. Cela a �t� v�rifi� exp�rimentalement: 6, pour diff�rentes fr�quences d'interaction (en particulier d'interaction de fr�quence inf�rieure), le param�tre est g�n�ralement une importante baisse de pr�cision de formation moyenne, de sorte que le processus de formation est tr�s instable.

La figure 6 sur la base de l'algorithme distribu� form� param�tre courbe moyenne (le mod�le DNN)

Afin de r�soudre ce probl�me, Nous vous proposons un mod�le alternatif avec un mod�le int�gr� de la moyenne, comme un mod�le pour l'agr�gation de l'apprentissage distribu� en profondeur. Bien que la fonction de perte des param�tres du mod�le de r�seau neuronal sur la non-convexe, mais la sortie est convexe g�n�ralement sur le mod�le (telles que l'�tude de la profondeur de la perte d'entropie crois�e couramment utilis�). A ce moment, nous pouvons �tre obtenus en utilisant l'in�galit� de convexit�:

Dans lequel le c�t� gauche de l'in�galit� est int�gr� (Ensemble) valeur de la fonction de perte de mod�le. Voir, pour le mod�le non-convexe, le mod�le peut �tre int�gr� la performance de r�tention.

Cependant, chaque fois par mod�le de r�seau de neurones int�gr� � grande �chelle des temps augmentera, donc il y a un probl�me de mod�le � l'�chelle de l'explosion. Alors, est-il utiliser non seulement les avantages du mod�le int�gr�, les augmentations du mod�le, et l'emp�cher? nous pr�sentons Proc�d� bas� sur un mod�le d'un mod�le de proc�d� de polym�risation en m�me temps int�gr� et le mod�le de compression, � savoir l'int�gration - M�thode de compression (compression-ensemble). Apr�s chaque int�gration, nous proc�dons � une compression du mod�le int�gr� r�sultant.

algorithme d�taill� est divis� en trois �tapes:

Chaque noeud de calcul conform�ment � l'algorithme d'optimisation locale et les donn�es d'apprentissage utilis�es pour l'apprentissage du mod�le partiel local;

la communication mutuelle entre le mod�le de noeud informatique local obtenu mod�le int�gr�, et (une partie) des donn�es locales est indiqu� sur le mod�le de la valeur de sortie int�gr� de celui-ci;

En utilisant les techniques de compression de mod�le (telles que la distillation de la connaissance), alors les donn�es d'information de liaison marqu�, la compression du mod�le sur chaque noeud de travail, respectivement, pour obtenir la m�me taille que le nouveau mod�le est un mod�le local en tant que mod�le final de la polym�risation. Pour plus d'�conomie de calcul, et le processus de distillation du processus de formation du mod�le local peuvent �tre combin�s ensemble.

Cette int�gration - proc�d� de polym�risation de compression, soit par des gains de performance int�gr�s, mais aussi de maintenir la taille du mod�le global du processus d'apprentissage it�ratif. Des r�sultats exp�rimentaux sur IMAGEnet CPCA-10 et aussi v�rifie l'int�gration bien - proc�d� de polym�risation de l'efficacit� de compression (voir la figure 7 et la figure 8..). Lorsque la fr�quence inf�rieure de la communication entre l'autre des noeuds de travail, les param�tres de performance de la m�thode de calcul de moyenne sera faible, mais le mod�le d'int�gration - une m�thode de compression, mais encore en mesure d'atteindre les r�sultats souhait�s. En effet, Lorsqu'il est int�gr� � une vari�t� d'apprentissage dans le sous-mod�le mieux et basse fr�quence de communication peut conduire � diff�rents mod�les locaux plus d�centralis�s, plus la diversit�, en m�me temps, des moyens de communication � basse fr�quence r�duire les co�ts de communication. Par cons�quent, Mod�le d'int�gration - m�thode de compression est plus appropri� pour les sc�narios d'environnement r�seau relativement pauvres.

Compar� divers jeu de donn�es de l'algorithme distribu� figure. 7 ICRA

Compar� divers jeu de donn�es de l'algorithme distribu� figure 8. IMAGEnet

Sur la base de l'int�gration du mod�le d'algorithmes distribu�s est un domaine d'�tude relativement nouveau, il y a encore beaucoup de probl�mes non r�solus. Par exemple, quand beaucoup de travail, ou lorsque le mod�le de nud local lui-m�me est un mod�le d'int�gration grande �chelle de temps deviendra tr�s important, ce qui apportera un plus grand r�seau au-dessus. En outre, lorsqu'un grand mod�le int�gr�, le mod�le sera compress� dans une grande t�te. Il est � noter que, dans la IPSC 2018, m�thode codistillation Hinton et al, cependant, et ce travail sur des motivations diff�rentes, mais tr�s similaire � l'algorithme et le travail. Comment comprendre ces associations et de faire face � ces limitations donneront lieu � de nouvelles recherches, le lecteur int�ress� � penser cela.

l'analyse de la convergence de l'algorithme stochastique agenc� pour re-: Am�lioration de la profondeur Distributed Learning Theory

Enfin, une br�ve introduction � nos r�centes am�liorations dans les aspects th�oriques de l'apprentissage en profondeur distribu�s.

la politique d'allocation des donn�es de profondeur commune apprentissage Distribu� apr�s segmentation sont �gales m�lang�es. Plus pr�cis�ment, toutes les donn�es d'apprentissage sont brouill�s au hasard pour obtenir un r�arrangement de donn�es, les ensembles de donn�es sont ensuite s�quentiellement aliquot�s et stock�s � chaque noeud sur le calcul. Une fois les donn�es est termin�e sur un, si toute la collection de donn�es locales et r�p�tez le processus, g�n�ralement appel� � r�organisation globale �, si seules les donn�es locales brass�s, g�n�ralement appel�e � r�organisation locale. �

La plupart de l'existant th�orie de l'apprentissage en profondeur distribu�e suppose que les donn�es sont ind�pendantes et identiquement distribu�es. Cependant, l'algorithme Fisher-Yates bas� sur r�arrangement al�atoire pratiquement �quivalent d'�chantillonnage sans remplacement, est plus ind�pendant et distribu� de fa�on identique entre les donn�es de formation. Ainsi, chaque gradient stochastique tour gradient calcul� n'est estimation plus pr�cise non biais�e, la m�thode d'analyse th�orique dans le pass� algorithme d'optimisation stochastique distribu�e est plus applicable, les r�sultats de convergence existants ne sont pas n�cessairement d�tient encore.

Nous utilisons transductive Rademancher complexit� comme un outil, �tant donn� les limites exactes �cart de gradient de gradient stochastique par rapport � l'analyse de la convergence de la ligne de profondeur distribu�s de fa�on al�atoire de l'algorithme d'apprentissage de poids inf�rieur.

En supposant que la fonction cible est lisse (fonction non n�cessairement convexe), le syst�me comporte K noeuds de calcul, le nombre de formations roue (Epoch) est S, les donn�es d'apprentissage global a n, consid�rons un SGD algorithme distribu�.

(1) Si un taux de convergence de la r�organisation globale al�atoire de la politique d'allocation de donn�es, l'algorithme est

Ce qui am�ne l'erreur suppl�mentaire de la nature de la non-i.i.d.

. Ainsi, lorsque le nombre de tours de donn�es sur beaucoup plus petites que le nombre d'�chantillons de formation (S �n), l'influence des erreurs suppl�mentaires peuvent �tre ignor�es. En tenant compte des t�ches existantes d'apprentissage en profondeur distribu�, S �n est tr�s facile de se rencontrer, de sorte que le r�arrangement al�atoire global ne modifie pas le taux de convergence des algorithmes distribu�s.

(2) si un taux de convergence de la strat�gie de brassage de donn�es de politique d'allocation locale, l'algorithme est

Ce qui apporte une nature non plus i.i.d. suppl�mentaire de l'erreur

. La raison en est que, en raison de la r�organisation locale al�atoire est effectu�e localement, les donn�es entre les diff�rents noeuds de calcul ne interagissent pas, plus les donn�es de diff�rence, l'�cart de gradient stochastique est plus grande. Lorsque le nombre de tours de donn�es sur S �n / K2, l'influence des erreurs suppl�mentaires peuvent �tre ignor�es. Autrement dit, lorsque les donn�es r�arrang�es en utilisant la strat�gie d'allocation locale, plusieurs tours de l'algorithme aux donn�es re�ues par l'influence du nombre de nuds de calcul. Si plusieurs noeuds de calcul, sur un certain nombre de tours est pas trop grand.

� l'heure actuelle, le d�veloppement de l'apprentissage distribu� la profondeur de champ tr�s rapidement, mais le travail de plus que notre groupe ont fait une exploration pr�liminaire. J'esp�re que cela peut permettre � davantage de chercheurs � comprendre � distribu�s � la n�cessit� d'une int�gration profonde avec le � apprentissage en profondeur � nous pouvons travailler ensemble pour promouvoir le d�veloppement de nouvelles connaissances en profondeur distribu�!

A propos de l'auteur:

Chen Wei, directeur du groupe d'apprentissage machine chercheur Microsoft Research Asia pour �tudier l'algorithme d'apprentissage machine et expliquer les diff�rentes branches d'am�lioration, particuli�rement pr�occup�e par la profondeur de l'apprentissage, l'apprentissage par renforcement, apprentissage machine distribu�e, l'apprentissage machine de jeu, l'apprentissage de tri. Chen Wei en 2011 pour rejoindre Microsoft Research Asia, responsable de projet d'apprentissage de la machine, a publi� des articles dans des revues et conf�rences internationales NIPS, ICML, AAAI, IJCAI autres domaines connexes.

r�f�rences:

Shuxin Zheng, Qi Meng, Taifeng Wang, Wei Chen, Zhi-Ming Ma et Tie-Yan Liu, Asynchronous Stochastique gradient de descente avec la compensation de retard, ICML2017
Shizhao Sun Wei Chen, Jiang Bian, Liu Xiaoguang et Tie-Yan Liu, Ensemble-Compression: Une nouvelle m�thode pour la formation parall�le de Deep Neural Networks, ECML 2017
Qi Meng, Chen Wei, Yue Wang, Zhi-Ming Ma et Tie-Yan Liu, analyse la convergence des Gradient Stochastique Distribu� Descente avec Shuffling, https://arxiv.org/abs/1709.10432

(Cet article r�imprim� avec la permission de titres Microsoft Research AI)

[] Joignez-vous � la communaut�

Ji-won nouvelles technologies AI + industrie du recrutement communautaire, a accueilli les �tudiants + industrie de la technologie AI a atterri int�r�t, plus Little Helper Micro Signal: aiera2015_3 Dans le groupe, si elle est approuv�e seront invit�s dans le groupe, assurez-vous de modifier les commentaires apr�s avoir rejoint un groupe communautaire (Nom - Soci�t� - emploi, groupe professionnel d'examen plus rigoureux, s'il vous pla�t comprendre).

Route de la soie

Apprenez � conna�tre la Chine

Distribu� apprentissage en profondeur de nouveaux progr�s: laisser la � distribution � et � l'apprentissage en profondeur � profondeur r�elle d'int�gration