Distribué apprentissage en profondeur de nouveaux progrès: laisser la « distribution » et « l'apprentissage en profondeur » profondeur réelle d'intégration

Ji-won nouvelle recommandation

Source: gros titres Microsoft Research IA (ID: MSRAsia)

Auteur: Chen Wei

[New Ji-won EXAMEN Ces dernières années, l'apprentissage en profondeur en PNL, reconnaissance d'image, reconnaissance vocale, la traduction automatique a fait des réalisations étonnantes. Toutefois, le champ d'application de la profondeur de l'apprentissage est de plus en plus limitée par la quantité de données et la taille du modèle. Comment peut efficacement la formation de modèle d'apprentissage profondeur? Microsoft Research Asia, le groupe en charge du chercheur apprentissage de la machine Chen Wei et son équipe basée sur une compréhension complète de l'apprentissage de la machine, sera étroitement intégrée avec la technologie distribuée et la profondeur de l'apprentissage, l'exploration de nouvelles réel combiné « distribué apprentissage en profondeur » algorithme .

Avec l'émergence de grands volumes de données et de ressources informatique efficace, l'apprentissage en profondeur dans de nombreux domaines de l'intelligence artificielle, nous avons fait une percée majeure. Cependant, face à des tâches de plus en plus complexes, La taille et la profondeur des modèles de données d'apprentissage sont devenus de plus en plus grand . Par exemple, le classificateur d'image est utilisée pour les étiquettes de données d'image de train sont élevés à des millions, voire des dizaines de millions d'exemplaires. données de formation à grande échelle fournis pour former un grand modèle de la base matérielle, donc au cours des dernières années, l'émergence d'un grand nombre de modèles d'apprentissage de la machine à grande échelle, telles que 2015, Microsoft Research Asia a développé plus de vingt milliards de paramètres du modèle thématique LightLDA . Cependant, Lors de l'augmentation des vocabulaires de données de formation quand des millions, sinon faire un processus d'élagage, le modèle d'apprentissage en profondeur peut avoir des milliards, voire des centaines de milliards de paramètres même .

Afin d'améliorer l'efficacité du modèle de formation d'apprentissage en profondeur, réduire le temps de formation, nous allons généralement utiliser la mission de formation de la technologie distribuée - de travailler simultanément avec plusieurs nuds, distribués, efficacement formé d'excellentes performances du modèle de réseau de neurones. La technologie de l'accélérateur distribué est la profondeur de la technologie d'apprentissage , Peut améliorer considérablement l'efficacité de la profondeur de la formation pour apprendre, pour augmenter encore son champ d'application.

profondeur cible de l'apprentissage de l'exploration de données est une loi pour nous aider à prévoir. Cadre général pour l'algorithme d'apprentissage en profondeur est d'utiliser un algorithme d'optimisation itérative pour minimiser le risque sur l'expérience des données de formation. En raison de la nature statistique des données, plus le degré de flexibilité lors de l'optimisation de la convergence de la nature, la nature de l'apprentissage et la généralisation de l'exécution dans plusieurs machines par rapport à d'autres tâches informatiques, l'algorithme d'apprentissage en profondeur n'a pas besoin en fait l'exécution du processus de parallélisation nuds de calcul exécutent une version autonome de l'algorithme strictement par la communication. Ainsi, lorsque le « distribué » rencontre « l'apprentissage en profondeur », ne doit pas se limiter à l'algorithme de série pour atteindre plusieurs machines ainsi que la technologie de mise en uvre sous-jacente, nous devrions être fondée sur une connaissance approfondie de l'apprentissage de la machine, L'intégration étroite de distribution et de la profondeur de l'apprentissage ensemble, combinant les caractéristiques de la conception de l'apprentissage en profondeur « Distributed apprentissage en profondeur » algorithme dans l'un des nouveaux réel.

profondeur Figure cadre d'apprentissage distribué 1

cadre distribué apprentissage profond, comprenant un ensemble de données / segmentation du modèle, autonome formation d'algorithme d'optimisation locale, un mécanisme de communication et des données / modules de polymérisation du modèle. Les algorithmes utilisent généralement la distribution de données classique brouillés segmentation au hasard, un algorithme d'apprentissage de l'algorithme d'optimisation stochastique locale (par exemple la méthode du gradient stochastique), la communication synchrone ou asynchrone, et les paramètres du procédé de polymérisation moyen du modèle.

Les caractéristiques des algorithmes d'apprentissage en profondeur, l'apprentissage machine, Microsoft Research Asia, le groupe re-conception / compréhension de ces modules, nous faisons principalement trois domaines de travail dans le domaine de l'étude approfondie distribuée: Le premier emploi pour le problème de retard de gradient de mécanismes asynchrones, nous avons conçu le « algorithme asynchrone avec compensation de retard » pour l'apprentissage en profondeur ; Le deuxième travail, avis de nature non-convexe du réseau de neurones, nous proposons plus efficace que les paramètres moyens d'agrégation intégré et conçu l ' « intégration - Compression » algorithme d'apprentissage en profondeur parallèle ; Le troisième ouvrage, nous avons d'abord analysé le taux d'étude approfondie distribuée de convergence de l'algorithme de brouillage aléatoire des modèles segmentés, fournir une orientation théorique pour la conception de l'algorithme .

algorithme DC-ASGD: gradient compensation de retard de communication asynchrone

descente de gradient Stochastique (SGD) est l'un des plus algorithme d'optimisation de l'apprentissage en profondeur populaire, la formule de mise à jour est le suivant:

formule 1

Dans lequel, en poids du modèle actuel, (xt, yt) de données aléatoires, g (poids; xt, yt) à (xt, yt) gradient de la fonction de perte de l'expérience correspondant au modèle actuel en poids est, est la longueur de l'étape / le taux d'apprentissage.

Supposons que le système comporte une pluralité de noeuds de travail d'optimisation du modèle de réseau de neurones en parallèle en utilisant la méthode du gradient stochastique, communication synchrone et asynchrone sont deux mécanismes de synchronisation commun.

méthode de descente de gradient stochastique synchrone (Synchronous SGD) à chaque itération de l'optimisation, il attend l'achèvement de toutes les de calcul de gradient noeuds de calcul, et la calculée sur chaque gradient stochastique de noeud de travail cumulé, et un modèle moyen est mis à jour selon la formule 1. Puis, après avoir reçu un nuds de travailleur modèle mis à jour et dans la prochaine itération. Depuis Sync SGD pour attendre l'achèvement de tous les noeuds de calcul de gradient de calcul, donc comme effet de barillet, Sync vitesse de calcul SGD sera plus faible noeud de travail de l'efficacité des opérations de déplacement.

Procédé d'algorithme du gradient stochastique asynchrone (Asynchronous SGD) à chaque itération, chaque noeud de travail dans le calcul de la mise à jour du gradient stochastique directement sur le modèle, sans attendre l'achèvement de tous les noeuds de calcul calcul de gradient. Ainsi, l'est aussi largement utilisé aléatoire la vitesse de descente de gradient itératif asynchrone plus rapide, pour former le réseau de neurones en profondeur. Cependant, Async SGD peut être rapide, mais le gradient est utilisé pour mettre à jour le modèle de retard, aura une incidence sur la précision de l'algorithme. Quel est le « retard gradient »? Nous regardons le tableau.

descente de gradient stochastique figure 2 Asynchrone

Async SGD Pendant le fonctionnement, un noeud travailleur (m) de travail acquise lors du démarrage du t-ième itération les plus récentes données et les paramètres du modèle wt (xt, yt), calculer le gradient stochastique correspondant gt, et le retourne et mises à jour du modèle global w. Étant donné que le calcul du gradient nécessite un certain temps, lorsque les rendements des noeuds de travail gradient stochastique gt, modèle poids nuds autres travaux ont été mis à jour autour de [tau], devient le poids + . En d'autres termes, la formule de mise à jour Async SGD est:

L'équation 2

Comparatif formule 1, la formule 2 est un g de gradient stochastique des mises à jour du modèle utilisé par wt + (p; xt, yt), g de gradient stochastique (wt + qui doit être utilisé par rapport à SGD; xt + , yt + ) le retard [tau] généré à l'étape. Par conséquent, nous appelons gradient aléatoire Async SGD, "retard gradient".

Le plus gros problème causé par le retard de gradient est dû mettre à jour le modèle chaque fois que le gradient n'est pas le gradient correct (S'il vous plaît noter que g (poids, xt, yt) g (poids + ; xt + , yt + ) ), ce qui dans le modèle de dommages précision Async SGD, et ce phénomène augmente à mesure que le nombre de machines deviendra de plus en plus graves. Comme on le voit ci-dessous, augmente à mesure que le nombre de noeuds de calcul, la précision Async SGD devient pire.

La figure 3 performances méthode asynchrone algorithme du gradient stochastique

Alors, comment faire la descente de gradient stochastique asynchrone, tout en maintenant la vitesse de formation, une plus grande précision de celui-ci? Nous avons conçu un gradient DC-ASGD (Async SGD retard est compensé) algorithme peut compenser le retard.

Afin d'étudier la relation entre (p + ) et le gradient de retard g (en poids) g de gradient correct, nous allons g (wt + ) développement de Taylor en poids de:

Dans lequel, g (en poids) gradient gradient, à savoir la fonction de perte Hessien, H (g (p)) en tant que gradient de la matrice de Hesse. De toute évidence, le gradient de retard est en fait vrai approximation d'ordre zéro du gradient, tandis que le reste de la cause du retard. Ainsi, une idée naturelle est que si nous tous les termes d'ordre supérieur sont calculés, le délai peut être corrigé par le gradient précis gradient. Toutefois, étant donné que les autres ont une durée illimitée, il ne peut pas être calculé avec précision. Par conséquent, nous avons choisi comme premier terme de compensation de retard de l'ordre dans l'équation ci-dessus:

Comme nous le savons tous, il y a un million ou plusieurs paramètres en profondeur moderne modèle de réseau de neurones, l'informatique et le stockage Hessien g (en poids) est devenu presque une chose ne peut pas être remplie. Ainsi, pour trouver une bonne approximation d'une matrice hessienne est la clé pour compenser le retard de gradient. matrice d'information de Fisher est défini en fonction du gradient de la matrice de produit externe

Il est une estimation non biaisée de la asymptotiquement Hessien, nous avons donc choisi d'utiliser G (en poids) pour approcher Hessien. Selon des études antérieures, si l'élément en diagonale dans la matrice hessienne est approchée en utilisant la matrice hessienne du modèle de réseau de neurones, une réduction significative de la complexité de calcul et ses collègues mémoire en maintenant toujours la précision de l'algorithme, donc nous diag employée (G (poids)) en tant que matrice Hessian approximatif. Afin de réduire davantage l'approximation de la variance, on utilise entre un paramètre (0,1> pour ajuster l'écart et de la variance. En résumé, nous avons conçu le procédé de descente de gradient stochastique asynchrone suite à la compensation de retard (DC-ASGD),

Dans lequel le gradient de la période de compensation de retard g (en poids) ne contient que les informations d'une étape, presque pas d'augmentation des coûts de calcul et de stockage.

Nous algorithme DC-ASGD est évaluée sur des ensembles de données CIFAR10 IMAGEnet et ensembles de données, les résultats voient les deux chiffres suivants.

Figure 4 formation DC-ASGD / erreur test _CIFAR-10

Figure 5 erreur de formation / test DC-ASGD _ImageNet

On peut observer, algorithme DC-ASGD par rapport à l'algorithme Async SGD, la précision du modèle obtenu en même temps nettement améliorée, et aussi plus élevé que Sync SGD, SGD obtenir sensiblement la même précision du modèle.

Ensemble-Compression Algorithm: modèle de processus de polymérisation non convexe améliorée

Le paramètre est la profondeur moyenne d'un modèle d'algorithme d'apprentissage existant distribué procédé de polymérisation très commun. Si la fonction de perte est convexe sur les paramètres du modèle, l'inégalité suivante est:

Dans laquelle, K est le nombre de noeuds de calcul, wk est un modèle local,

Les paramètres moyens du modèle, (x, y) est une donnée d'échantillon arbitraire. L'extrémité gauche de l'inégalité correspondant à une fonction de perte de modèle moyenne, la valeur de fonction de coût est la moyenne de l'extrémité droite de chaque modèle local. Voir, les projections de problèmes peuvent maintenir les paramètres de performance moyenne du modèle.

Cependant, le modèle de réseau de neurones pour non-convexe, plus l'inégalité ne sera plus prise, et donc la performance du modèle moyen n'est plus garanti. Cela a été vérifié expérimentalement: 6, pour différentes fréquences d'interaction (en particulier d'interaction de fréquence inférieure), le paramètre est généralement une importante baisse de précision de formation moyenne, de sorte que le processus de formation est très instable.

La figure 6 sur la base de l'algorithme distribué formé paramètre courbe moyenne (le modèle DNN)

Afin de résoudre ce problème, Nous vous proposons un modèle alternatif avec un modèle intégré de la moyenne, comme un modèle pour l'agrégation de l'apprentissage distribué en profondeur. Bien que la fonction de perte des paramètres du modèle de réseau neuronal sur la non-convexe, mais la sortie est convexe généralement sur le modèle (telles que l'étude de la profondeur de la perte d'entropie croisée couramment utilisé). A ce moment, nous pouvons être obtenus en utilisant l'inégalité de convexité:

Dans lequel le côté gauche de l'inégalité est intégré (Ensemble) valeur de la fonction de perte de modèle. Voir, pour le modèle non-convexe, le modèle peut être intégré la performance de rétention.

Cependant, chaque fois par modèle de réseau de neurones intégré à grande échelle des temps augmentera, donc il y a un problème de modèle à l'échelle de l'explosion. Alors, est-il utiliser non seulement les avantages du modèle intégré, les augmentations du modèle, et l'empêcher? nous présentons Procédé basé sur un modèle d'un modèle de procédé de polymérisation en même temps intégré et le modèle de compression, à savoir l'intégration - Méthode de compression (compression-ensemble). Après chaque intégration, nous procédons à une compression du modèle intégré résultant.

algorithme détaillé est divisé en trois étapes:

  • Chaque noeud de calcul conformément à l'algorithme d'optimisation locale et les données d'apprentissage utilisées pour l'apprentissage du modèle partiel local;

  • la communication mutuelle entre le modèle de noeud informatique local obtenu modèle intégré, et (une partie) des données locales est indiqué sur le modèle de la valeur de sortie intégré de celui-ci;

  • En utilisant les techniques de compression de modèle (telles que la distillation de la connaissance), alors les données d'information de liaison marqué, la compression du modèle sur chaque noeud de travail, respectivement, pour obtenir la même taille que le nouveau modèle est un modèle local en tant que modèle final de la polymérisation. Pour plus d'économie de calcul, et le processus de distillation du processus de formation du modèle local peuvent être combinés ensemble.

  • Cette intégration - procédé de polymérisation de compression, soit par des gains de performance intégrés, mais aussi de maintenir la taille du modèle global du processus d'apprentissage itératif. Des résultats expérimentaux sur IMAGEnet CPCA-10 et aussi vérifie l'intégration bien - procédé de polymérisation de l'efficacité de compression (voir la figure 7 et la figure 8..). Lorsque la fréquence inférieure de la communication entre l'autre des noeuds de travail, les paramètres de performance de la méthode de calcul de moyenne sera faible, mais le modèle d'intégration - une méthode de compression, mais encore en mesure d'atteindre les résultats souhaités. En effet, Lorsqu'il est intégré à une variété d'apprentissage dans le sous-modèle mieux et basse fréquence de communication peut conduire à différents modèles locaux plus décentralisés, plus la diversité, en même temps, des moyens de communication à basse fréquence réduire les coûts de communication. Par conséquent, Modèle d'intégration - méthode de compression est plus approprié pour les scénarios d'environnement réseau relativement pauvres.

    Comparé divers jeu de données de l'algorithme distribué figure. 7 ICRA

    Comparé divers jeu de données de l'algorithme distribué figure 8. IMAGEnet

    Sur la base de l'intégration du modèle d'algorithmes distribués est un domaine d'étude relativement nouveau, il y a encore beaucoup de problèmes non résolus. Par exemple, quand beaucoup de travail, ou lorsque le modèle de nud local lui-même est un modèle d'intégration grande échelle de temps deviendra très important, ce qui apportera un plus grand réseau au-dessus. En outre, lorsqu'un grand modèle intégré, le modèle sera compressé dans une grande tête. Il est à noter que, dans la IPSC 2018, méthode codistillation Hinton et al, cependant, et ce travail sur des motivations différentes, mais très similaire à l'algorithme et le travail. Comment comprendre ces associations et de faire face à ces limitations donneront lieu à de nouvelles recherches, le lecteur intéressé à penser cela.

    l'analyse de la convergence de l'algorithme stochastique agencé pour re-: Amélioration de la profondeur Distributed Learning Theory

    Enfin, une brève introduction à nos récentes améliorations dans les aspects théoriques de l'apprentissage en profondeur distribués.

    la politique d'allocation des données de profondeur commune apprentissage Distribué après segmentation sont égales mélangées. Plus précisément, toutes les données d'apprentissage sont brouillés au hasard pour obtenir un réarrangement de données, les ensembles de données sont ensuite séquentiellement aliquotés et stockés à chaque noeud sur le calcul. Une fois les données est terminée sur un, si toute la collection de données locales et répétez le processus, généralement appelé « réorganisation globale », si seules les données locales brassés, généralement appelée « réorganisation locale. »

    La plupart de l'existant théorie de l'apprentissage en profondeur distribuée suppose que les données sont indépendantes et identiquement distribuées. Cependant, l'algorithme Fisher-Yates basé sur réarrangement aléatoire pratiquement équivalent d'échantillonnage sans remplacement, est plus indépendant et distribué de façon identique entre les données de formation. Ainsi, chaque gradient stochastique tour gradient calculé n'est estimation plus précise non biaisée, la méthode d'analyse théorique dans le passé algorithme d'optimisation stochastique distribuée est plus applicable, les résultats de convergence existants ne sont pas nécessairement détient encore.

    Nous utilisons transductive Rademancher complexité comme un outil, étant donné les limites exactes écart de gradient de gradient stochastique par rapport à l'analyse de la convergence de la ligne de profondeur distribués de façon aléatoire de l'algorithme d'apprentissage de poids inférieur.

    En supposant que la fonction cible est lisse (fonction non nécessairement convexe), le système comporte K noeuds de calcul, le nombre de formations roue (Epoch) est S, les données d'apprentissage global a n, considérons un SGD algorithme distribué.

    (1) Si un taux de convergence de la réorganisation globale aléatoire de la politique d'allocation de données, l'algorithme est

    Ce qui amène l'erreur supplémentaire de la nature de la non-i.i.d.

    . Ainsi, lorsque le nombre de tours de données sur beaucoup plus petites que le nombre d'échantillons de formation (S «n), l'influence des erreurs supplémentaires peuvent être ignorées. En tenant compte des tâches existantes d'apprentissage en profondeur distribué, S «n est très facile de se rencontrer, de sorte que le réarrangement aléatoire global ne modifie pas le taux de convergence des algorithmes distribués.

    (2) si un taux de convergence de la stratégie de brassage de données de politique d'allocation locale, l'algorithme est

    Ce qui apporte une nature non plus i.i.d. supplémentaire de l'erreur

    . La raison en est que, en raison de la réorganisation locale aléatoire est effectuée localement, les données entre les différents noeuds de calcul ne interagissent pas, plus les données de différence, l'écart de gradient stochastique est plus grande. Lorsque le nombre de tours de données sur S «n / K2, l'influence des erreurs supplémentaires peuvent être ignorées. Autrement dit, lorsque les données réarrangées en utilisant la stratégie d'allocation locale, plusieurs tours de l'algorithme aux données reçues par l'influence du nombre de nuds de calcul. Si plusieurs noeuds de calcul, sur un certain nombre de tours est pas trop grand.

    À l'heure actuelle, le développement de l'apprentissage distribué la profondeur de champ très rapidement, mais le travail de plus que notre groupe ont fait une exploration préliminaire. J'espère que cela peut permettre à davantage de chercheurs à comprendre « distribués » la nécessité d'une intégration profonde avec le « apprentissage en profondeur » nous pouvons travailler ensemble pour promouvoir le développement de nouvelles connaissances en profondeur distribué!

    A propos de l'auteur:

    Chen Wei, directeur du groupe d'apprentissage machine chercheur Microsoft Research Asia pour étudier l'algorithme d'apprentissage machine et expliquer les différentes branches d'amélioration, particulièrement préoccupée par la profondeur de l'apprentissage, l'apprentissage par renforcement, apprentissage machine distribuée, l'apprentissage machine de jeu, l'apprentissage de tri. Chen Wei en 2011 pour rejoindre Microsoft Research Asia, responsable de projet d'apprentissage de la machine, a publié des articles dans des revues et conférences internationales NIPS, ICML, AAAI, IJCAI autres domaines connexes.

    références:

    • Shuxin Zheng, Qi Meng, Taifeng Wang, Wei Chen, Zhi-Ming Ma et Tie-Yan Liu, Asynchronous Stochastique gradient de descente avec la compensation de retard, ICML2017

    • Shizhao Sun Wei Chen, Jiang Bian, Liu Xiaoguang et Tie-Yan Liu, Ensemble-Compression: Une nouvelle méthode pour la formation parallèle de Deep Neural Networks, ECML 2017

    • Qi Meng, Chen Wei, Yue Wang, Zhi-Ming Ma et Tie-Yan Liu, analyse la convergence des Gradient Stochastique Distribué Descente avec Shuffling, https://arxiv.org/abs/1709.10432

    (Cet article réimprimé avec la permission de titres Microsoft Research AI)

    [] Joignez-vous à la communauté

    Ji-won nouvelles technologies AI + industrie du recrutement communautaire, a accueilli les étudiants + industrie de la technologie AI a atterri intérêt, plus Little Helper Micro Signal: aiera2015_3 Dans le groupe, si elle est approuvée seront invités dans le groupe, assurez-vous de modifier les commentaires après avoir rejoint un groupe communautaire (Nom - Société - emploi, groupe professionnel d'examen plus rigoureux, s'il vous plaît comprendre).

    Mitsubishi Jin Hyun pourquoi vous devez pousser Eclipse Cross?
    Précédent
    âge inverse et sur! Su Bing Timothée 3 Janvier a battu le record d'Asie, le mètre jaune arraché la cible enregistrement suivant
    Prochain
    Profitez d'un voyage, assurez-vous de venir à cette 18 place.
    Que Bucarest Dike Huqu sursauter? Koenigsegg Regera sera livré sur la route
    Great Subing Tim! Trois brisé le record d'Asie en un mois, où la limite trapéziste chinoise?
    Python 3.7.0 à venir!
    Le capitaine et les agents de bord photographiées, régal pour les yeux!
    150000 A3 Di Tiao tête juste boo? Hypothécaire marque de voitures de luxe a ce truc?
    Google Cloud COO confirme le départ ou le retour Intel a repris en tant que PDG
    Su Bing Tim 60 mètres Zhaiyin premier arrêt sur le podium du Championnat du Monde, trois battu le record d'Asie en un mois
    Porsche bien voulu prêter à un ami, voulez prendre un retour chariot à payer 180000
    Precious Article: 1949 Message du Nouvel An de l'appel publié Mao Zedong pour la révolution sera en fin de compte
    Huit mystère profond de l'industrie automobile de la Chine trois organisations: la poudre Di
    Pour Hanchuan mangera plusieurs plats de petit déjeuner, il y a quelque chose est votre favori!