2016, AlphaGo tourn�, �re de l'intelligence artificielle. Dans la m�me ann�e, Baidu ouvrir cadre d'apprentissage profond PaddlePaddle de meulage (pagaie mouche), devenant ainsi la premi�re open source de la Chine cadre d'apprentissage profond.

Cependant, cette vague entra�n�e par la profondeur de la vague de l'industrie de l'apprentissage et de la technologie, est �galement confront� � de nombreux d�fis.

L'augmentation de la quantit� de donn�es, une partie du mod�le de donn�es de formation dans les centaines de tuberculose, mod�le plus profond, plus complexe, de 8 AlexNet couche, la couche ResNet-1000 aux 1202 de, de plus en plus les param�tres du mod�le, plus encore que 10 cent millions ......

efficacit� de la formation du mod�le d'apprentissage profondeur est devenu une question cl�.

Parce que l'effet de la profondeur du mod�le d'apprentissage it�ratif est tr�s sensible � la vitesse de la formation, il est possible d'apporter une formation distribu�e haute performance du cadre de l'apprentissage en profondeur juste besoin le d�veloppement r�el et de l'application, ainsi que base AI dans l'industrie peut vraiment l'atterrissage.

Le m�me nombre de p�riph�riques mat�riels, la formation distribu�e � haute efficacit�, peut r�duire consid�rablement les it�rations de ce produit. Et dans les d�lais limit�s, tr�s efficaces outils plate-forme peuvent r�duire consid�rablement les besoins en mat�riel.

En Chine La premi�re et la seule open source ouverte, la plate-forme d'apprentissage en profondeur enti�rement fonctionnel . Apr�s des ann�es de pratique de l'industrie, Baidu voler pagaie est devenu le cadre de base, des outils, des composants et des services plate-forme pour l'int�gration de bout en open source profondeur de la plate-forme d'apprentissage, l'h�lice � la mouche � grande �chelle la capacit� de formation distribu�e a toujours �t� un point fort importante.

AI Developers Conference plate-forme technologique d'apprentissage Baidu Ma Yanjun, directeur de profondeur RPSC tenue une fois, la � mouche supports paddle dense et sc�ne param�tres param�tres clairsem�es de grande parall�le � grande �chelle de formation d'apprentissage en profondeur, le soutien billion ou encore plus �lev� pour des param�tres d'�chelle de grandeur efficace la formation parall�le, mais aussi le premier � fournir une telle puissante �tude approfondie technique parall�le de la plate-forme d'apprentissage en profondeur, pour atteindre efficace, stable, faible co�t gr�ce � l'innovation technologique �.

V�ritable �chelle de qualit� industrielle: 100 milliards caract�ristique clairsem�e, faire l'�chelle de classification

Pour r�duire la application � grande �chelle du seuil de classification des d�veloppeurs normaux du mod�le d'apprentissage en profondeur, aux d�veloppeurs plus d'am�liorer les performances des applications de recommandation personnalis�e, vol paddle a lanc� une nouvelle s�rie de param�tres de serveur tr�s simultan�s pour la mise en uvre de la formation distribu�e, et la lib�ration une tr�s grande biblioth�que de formation � l'�chelle de classification PLSC, caract�ristiques rares pour les d�veloppeurs d'aide � atteindre 100 milliards de train, ainsi que l'�chelle de dix millions de cat�gories de classification.

100 milliards de fonction rares

100 milliards de caract�ristiques rares: syst�me de recommandation d'application dans les informations de produit orient� utilisateur final flux, vid�o courts, de plus en plus largement, et la recommandation personnalis�e est un objectif important de poursuivre ces produits. Une fa�on personnalis�e importante et efficace pour r�aliser la m�thode d'apprentissage en profondeur consiste � utiliser les fonctionnalit�s de personnalisation dans un mod�le avec des capacit�s de g�n�ralisation massive de m�moire. Il a pour des centaines de millions d'utilisateurs de produits � la vie quotidienne, aussi longtemps que les caract�ristiques de contenu des utilisateurs des ressources et des informations personnalis�es graphiques et autres bundle simple, il est facile d'�largir l'�chelle comporte des dizaines, voire cent milliards de niveau.

Afin de soutenir les fonctions ouvertes 100 milliards, billions de param�tres du mod�le, la palette est con�u pour voler de valeur-cl� d'acc�s distribu�, des tranches de tableau valeur-cl� dans le segment de verrouillage pour soutenir la demande de mises � jour simultan�es. Et les caract�ristiques de communication pour les fonctions de mise � jour massives rares, fond�es sur l'auto-d�veloppement Baidu baidu-rpc package couche biblioth�que de communication logique de communication de formation distribu�e. Les fonctions de param�tres serveur int�gr� comprend un param�tre de fusion de transmission de client, le patch de la demande, les param�tres du mod�le de mise � jour, charger, enregistrer, etc., formant un des param�tres enfichable, composant serveur hautement concurrente, et le courant servir, de courtes sc�nes vid�o recommand�es.

Figure 1: paddle Fly 100 milliards de conception du serveur de param�tres rares

Dix millions de classification � l'�chelle

Les besoins pratiques de dix millions de classification � l'�chelle: les champs visuels tels que la classification d'images, reconnaissance des visages, des syst�mes de recommandation et d'autres applications des probl�mes de classification des �tiquettes g�n�ralement recommand�es face � un million, voire des dizaines de millions, � l'heure actuelle, la classification est bas�e sur la profondeur du mod�le d'apprentissage le moyen le plus efficace pour r�soudre le probl�me, mais il est limit� par les limites de la capacit� mat�rielle actuelle de m�moire � acc�s al�atoire des param�tres du mod�le stock�s dans un mod�le de classification est difficile � la carte GPU unique, ce qui limite le mod�le de classement g�n�ral pour la capacit� de formation des utilisateurs � grande �chelle. Pour ce probl�me, la meilleure solution est d'utiliser les moyens de mod�le parall�le, mais la conception parall�le du mod�le, la mise en uvre et la mise en service de haute performance pour la profondeur moyenne des d�veloppeurs de mod�les d'apprentissage, seuil. � cette fin, la mouche pagaie lanc� PLSC (Paddle grande �chelle de classification), ce qui peut r�duire consid�rablement le seuil pour le mod�le bas� sur l'application de la grande classification parall�le � grande �chelle, et ont d'excellentes performances et d'�volutivit�, de sorte que chaque d�veloppeur peut former rapidement mod�le de classification de cat�gorie VLSI.

Fly paddle plsc Caract�ristiques: prend en charge les donn�es d'image t�ches courantes lire fa�on, faire des cat�gories de classification, multi-machines distribu� mod�le de formation parall�le, la formation de pr�cision de m�lange automatique, la fourniture de services informatiques repr�sentation s�mantique niveau de la cat�gorie.

performances et l'�volutivit� PLSC: pour carte m�moire 32G unique 8 est V100, par rapport � la t�che des donn�es parall�les conventionnels, la classification PLSC peut soulever 250% du nombre de cat�gories. Lorsque vous utilisez le mod�le 128 v100 formation parall�le, le nombre de cat�gories PLSC peut atteindre 50 millions de type d'extension. Dans le mod�le parall�le de cartes multi-machine, le V100, par rapport � huit cartes unique, l'efficacit� d'acc�l�ration PLSC que dans la classe plus de dix millions peut atteindre 80%.

Figure 2: technique de classification de cat�gorie � grande �chelle bas�e sur un mod�le de parall�le

Tableau 1: PLSC en h�lice d'avion arcface efficacit� multi Expansion

Vitesse r�elle de qualit� industrielle: LET vitesse de formation de mod�le mouche

Sur la base de l'exp�rience r�f�rence mode de verrouillage paddle mouche Hogwild industrie, bas�e sur l'accumulation de Baidu pratique un large �ventail de sc�narios d'entreprise favorable � la poursuite a propos� une nouvelle communication de param�tres clairsem�s, IO lecture asynchrone, le mode de formation Geo-SGD, multi-machines formation de carte � haute performance, la formation de pr�cision mixte fonctionnalit�s pour aider les utilisateurs ordinaires � profiter de la vitesse de formation de mod�le au niveau de l'industrie. Gr�ce � une communication innovante et le mode de formation, voler paddle en mod�les � grande �chelle ou un d�bit de donn�es, r�seau de communication est devenu facile � la vitesse du train et de l'efficacit� sur les goulots d'�tranglement de travail ont �t� grandement am�lior�es, et compl�te que des produits similaires dans la performance du march�.

la formation de serveur de param�tres asynchrone complet

param�tres de communication clairsem�s : Sinon il sera en mod�le d'apprentissage en profondeur, fonction rares n�cessitent souvent un traitement sp�cial, apporter de s�rieux probl�mes � consommer de la m�moire et de la communication. Dans le cadre courant actuel apprentissage profond, la m�thode la plus commune est caract�ris�e par des caract�ristiques de vectorisation rares rares par tenseur de longueur variable, et des caract�ristiques correspondantes incorpor� recherche clairsem�e. Dans les param�tres de la machine multi-serveur au cours de la formation, les param�tres de hauteur de vol pour l'utilisation du nombre clairsem� de diff�rentes m�thodes de traitement, � savoir par un amincissement premier threads simultan�s asynchrones gradient combin� s'entra�nent g�n�r�s � un seul noeud, alors la communication par lots, ce op�ration r�duit consid�rablement la quantit� de trafic le processus de formation. Pour la formation clairsem�e mod�le bas� sur les caract�ristiques, multi-machine qui peut obtenir des effets � peu pr�s lin�aire speedup. IO de files d'attente multiples : Dans certains particuli�rement grande quantit� de donn�es, les exigences � haut d�bit, mais sur un mod�le plus petit pour calculer le co�t de la mission elle-m�me, les donn�es IO peuvent facilement devenir un goulot d'�tranglement en mati�re d'efficacit� de la formation. Pour r�soudre ce probl�me, nous avons cibl� pour voler la conception h�lice pr�sente une coh�rence de lecture asynchrone multi-file d'attente de donn�es lues par les sacrifices n�cessaires pour que la performance du mod�le a �t� grandement am�lior�e. Aucun param�tre de verrouillage mode de partage : Retour en 2010, a propos� Hogwild le mode de partage des param�tres de verrouillage, l'id�e de base qui est des param�tres rares du mod�le en l'absence de mode de verrouillage d'�criture peut �galement obtenir un effet de convergence. Paddle va voler ce mod�le comme la formation de serveur de param�tres par d�faut et des communications rares et multi-file d'attente asynchrones IO, le potentiel des ressources mat�rielles de la CPU du serveur � l'extr�me.

Figure 2: paddle volant tout le principe de la formation initiale

Tableau 2: pas de plein vol en formation asynchrone d�bit �volutivit� des ensembles de donn�es Criteo-CTR

Fly formation paddle Geo-SGD

Geo-SGD: avec les m�thodes traditionnelles de formation diff�rente serveur de param�tres, la hauteur d'origine mouche Geo-SGD (Geometric-SDG) utilisations finales travailleurs pour optimiser les param�tres du mod�le, et par l'interm�diaire d'un intervalle d�finissables de communication, la synchronisation de l'interpolation de param�tre de mod�le de formation locale . En outre, le serveur utilisera de mani�re asynchrone chaque diff�rence de param�tres du mod�le de fusion des travailleurs transmis. Avec la convergence du mod�le, les param�tres du mod�le entre le c�t� travailleur devient progressivement plus petit, l'ampleur du serveur global pour mettre � jour les param�tres du mod�le sera r�duit � fa�on g�om�trique.

En mode de formation asynchrone Geo-SGD, travailleur ne doit pas attendre que le serveur pour envoyer de nouveaux param�tres pour effectuer la formation, la fa�on dont l'effet d'entra�nement et la vitesse ont �t� grandement am�lior�es. Mais ce mode est plus appropri� peut �tre conserv� dans un mod�le unique, par exemple des sc�nes s�mantiques de correspondance mot vecteur. Tr�s peu de calcul, mais en utilisant une large gamme de mod�le word2vec de la sc�ne, par exemple, l'utilisation de mod�les de formation des palettes de vitesse de formation G�o-SGD formation distribu�e peut voler que des produits similaires la plupart 18 fois, et un ensemble de donn�es de validation sont divulgu�s, le mod�le effet sans aucune perte.

Figure 3: paddle Fly de la recherche th�orie de l'algorithme Geo-SGD

Tableau 3: Extension du mod�le et la lecture des donn�es de communication deviennent facilement le goulot d'�tranglement de Geo-SGD

carte GPU avec plusieurs formations de haute performance, la pr�cision de m�lange

L'expansion communication composant

topologie de communication Support: mouche palette supporte une vari�t� de topologies de communication, tels que Ring-Based AllReduce, hierarchiques Allreduce, 2-D Allreduce similaire, un utilisateur peut personnaliser diff�rentes topologies de communication, d'am�liorer la performance globale de communication pour diff�rents environnement de cluster.

gradient de compression automatique: Apr�s avoir analys� les param�tres de la grandeur de gradient, le gradient de mouche heuristique pale ont �t� polym�ris�s pour exercer des communications de r�seau � hautes performances, des communications de paquets dans un certain intervalle de temps de retard caract�ristique sensiblement constante.

Communication simultan�e: paddle volant gr�ce au soutien technique de communication multi-flux, la communication peut �tre compliqu�e par l'op�rateur concern�, afin de profiter pleinement de l'avantage de la bande passante permettra de r�duire de mani�re significative l'ensemble des communications de latence.

Op�rateur collectif: paddle Fly assemblage par l'op�rateur de la communication, ce qui am�liore consid�rablement la flexibilit� de la d�finition des algorithmes parall�les. biblioth�que de classification PLSC � grande �chelle, par exemple, il peut �tre personnalis� mod�le � grande �chelle de d�veloppement de l'algorithme parall�le � travers une vari�t� de l'op�rateur collectif assemblage flexible.

Sur la base de la combinaison optimale des strat�gies d'optimisation, le mod�le classique de notre traitement du langage naturel et sur le terrain vision par ordinateur deux public � titre de comparaison de r�f�rence, paddle mouche avantage de la formation multi-moteur augmente avec le nombre de cartes GPU et d'augmenter progressivement, dans l'absolu performances et l'�volutivit� sont pleines au-del� de l'autre divulgation des cadres.

Tableau 4: Comparaison mouche carte palette longitudinale avec plusieurs formations multi-machine et le cadre de r�f�rence

b�n�diction de communication Blending pr�cision

Sur la carte GPU demi-pr�cision support, peut �tre ouvert automatiquement voler la pr�cision de m�lange palette (automatique de pr�cision mixte, AMP) est calcul� par la ligne de code, r�duit consid�rablement le temps d'utilisation et de calcul m�moire d'une seule carte. Dans le cas de la formation de carte multi-machines, paddle de formation de vol distribu� technologie informatique � travers l'analyse du graphique, pour le cas de pr�cision mixte de formation de carte multi-machine, combin�e avec le r�le de l'op�ration, de tous r�duire la d�pendance de l'op�rateur de la mise au point pour assurer une communication multi-machines lors de la communication en utilisant la moiti� pr�cision. Dans le cas des communications pr�cision mixte, la pr�cision de la formation du mod�le n'est pas affect�e, et la consommation de bande passante de communication a diminu� de 50%, afin d'assurer la pr�cision des palettes de m�lange automatique pour voler multimoteur situation de formation multi-cartes est encore mieux speedup.

Figure 4: Demi-pr�cision Principe de communication de la carte de la machine de la pr�cision de m�lange de formation multi du pas de vol automatique

Le tableau 5 montre la palette � la vol�e mod�le Resnet50, sur la base de la pr�cision totale de la formation et de test des ensembles de donn�es IMAGEnet de m�lange lat�ral extensibilit� longitudinale formation de la pr�cision et l'extensibilit� dans le cas de plusieurs machines. � l'appui de pr�cision de m�lange de l'h�lice � la mouche, le GPU avec une capacit� de carte d'extension lat�rale multiple sous la pleine pr�cision est consid�rable, tandis que les extensions longitudinales pour am�liorer le d�bit de formation a atteint plus de 2 fois.

Tableau 5: Voler avec carte palette d'�volutivit� multiples m�lange automatis� pr�cision formation

Pratt & Whitney de la v�ritable AI: la r�duction des co�ts et avantages � tous les d�veloppeurs

Pour autre avantage l'utilisateur moyen, l'h�lice volante a �t� sp�cialement d�velopp� pour un certain nombre de sc�narios diff�rents, y compris distribu�s pour personnaliser une vari�t� de diff�rents modes de formation API Fleet, pour aider � am�liorer l'effet de la vitesse de formation et le gradient de profondeur de compression GPU cloud public (Deep gradient de compression) la technologie et de la technologie LocalSGD, la formation ultra-grande �chelle dans la technologie informatique peut am�liorer consid�rablement le poids de la taille du lot. Gr�ce � l'innovation et l'int�gration des technologies existantes aux fonctionnalit�s existantes, voler paddle une r�duction significative du mod�le d'apprentissage distribu� de la formation des utilisateurs, mise en service et compter le co�t de l'�nergie, pour aider les utilisateurs � obtenir rapidement le meilleur effet d'entra�nement.

API flotte

La plupart formation des utilisateurs d'apprentissage en profondeur dans l'utilisation de la fonction distribu�e normalement rencontr�es quatre probl�mes majeurs: 1) Comment peut se transformer en un programme local programme de formation distribu�; 2) comment soumettre un programme de formation distribu� au cluster; 3) devrait Quel genre de m�thodes de formation parall�les adopt�es, comment d�finir, 4) les moyens d'am�liorer l'efficacit� de leurs propres t�ches de formation.

Afin de r�duire le seuil pour les utilisateurs d'utiliser les co�ts de formation et de formation distribu�s, paddle volant offre une formation distribu�e API flotte, afin d'aider les utilisateurs � obtenir une excellente exp�rience de la performance.

En utilisant l'API Fleet, les utilisateurs ne doivent ajouter plus de dix lignes de code, vous pouvez utiliser la palette pour voler serveur de param�tres synchronise la formation, la formation initiale, GPU Geo-SGD et la formation de synchronisation multi-cartes multi-machines, ce qui r�duit consid�rablement l'utilisateur dans une vari�t� de modes les co�ts d'apprentissage associ�s � la commutation entre les deux. En outre, l'API Fleet fournit une interface pour interagir avec les ressources du cluster et la transparence de l'utilisateur, ce qui r�duit consid�rablement le co�t des ressources du cluster ax�es sur l'utilisateur pour le d�bogage. API Fleet fournit �galement une interface �volutive pour faciliter les d�veloppeurs de la communaut� � la formation de customize pour acc�l�rer les algorithmes parall�les.

Difficult�s sc�nario de cloud public distribu� la formation

Dans le groupe de pauvres environnement r�seau, car la communication entre plusieurs machines par des limitations de bande passante, la mission de formation r�partis dans la formation de plusieurs nuds, le stade de l'efficacit� de la communication deviennent souvent le goulot d'�tranglement de la formation tout distribu� dans le cloud public lorsque la formation du cluster GPU, cette situation est particuli�rement fr�quente. Afin de permettre aux utilisateurs publics cloud formation distribu�e peut �tre effectu�e � une faible bande passante haute performance fournissant vol palette de compression de gradient de profondeur (Deep gradient de compression) technique.

palette Fly �t� optimis�e sur la base de l'algorithme de papier d'origine. Compte tenu des param�tres du mod�le dans diff�rents mod�les gradient fragment�, volant au-dessus d'une certaine taille, seuls les param�tres du mod�le aubes de gradient clairsem�e communiquent au param�tre de synchronisation. Pour les param�tres petits mod�les de gradient, qui ne tient pas compte tr�s diff�rent des retards de communication TopK param�tres du mod�le de gradient, donc encore en utilisant le m�canisme de synchronisation de cartes multi machine normale. � l'heure actuelle, des palettes volantes technologie de compression de gradient de profondeur a �t� appliqu�e dans plusieurs AI mis en place dans la plate-forme de cloud public par l'�valuation interne des donn�es d'entreprise, m�me dans le cas de facteur pr�dictif de calcul de formation de cartes multi-machine faible de la carte P4, mouche paddle technologie DGC permettra �galement de r�duire le temps de formation de 40% -60%.

LocalSGD

Pour les sc�nes de cloud public, tout en offrant palette LocalSGD mouche technique de formation multi-machine, qui peut �tre mis � jour les param�tres du mod�le localement fusion pond�r�e entre plusieurs �tapes de la carte multi-machine. Un grand nombre d'exp�riences montrent que l'utilisation de la technologie fly paddle LocalSGD pour la formation multi-machines, n'aura pas d'impact significatif sur le mod�le de l'effet de convergence. Pendant ce temps, l'entra�nement par intervalles de synchronisation multi-cartes multi-machine, car les param�tres par rapport � expansion classique, l'ensemble a une speedup bonne augmentation.

Une technique de calcul de poids permet d'�conomiser la m�moire � train parall�le surdimensionn� par lots

Fly formation paddle avec une carte GPU multiples, l'utilisateur peut augmenter la taille globale des lots de taille par la technologie de re-calcul, ce qui est faible dans une m�moire ou un num�ro de carte GPU sur puce n'est pas des sc�nes tr�s efficaces.

Fly technologie informatique de lourde palette: Avec l'augmentation progressive de la taille des donn�es de formation, plus de formation, le mod�le plus profond d'apprentissage en profondeur se g�n�ralise. Dans le mod�le de formation en cours d'apprentissage en profondeur, le mod�le veut g�n�ralement garder la couche cach�e des r�sultats de calcul � terme. Comme le nombre de r�sultats augmentera de fa�on lin�aire avec l'augmentation du nombre de couches du mod�le, la taille de la m�moire des puces informatiques actuels capables d'utiliser un d�fi. Pour cette raison, la mouche paddle propos�e avant technique r�tropropagation Nouveau calcul (de FRB), en effectuant le recalcul n�cessaire de la logique de processus inverse vers l'avant, la m�moire avec le nombre de couches pour atteindre une croissance augmentation de sublin�aire.

Figure 5: poids mouche palette de calcul des principes d'optimisation de la m�moire

calcul de poids de lot prolong�e Taille principe: avant que la m�moire est lib�r�e pour le r�sultat interm�diaire de la couche cach�e, et un point d'ancrage local est recalcul�e en fonction du processus inverse.

La figure 6. courbe Bert de changement de mod�le dans un calcul d'une �tape de m�moire

In & FP32 utilisation 32G V100, nous avons r�alis� les plus grands tests de taille de lot dans un certain nombre de mod�les diff�rents, qui offrent jusqu'� 600%. Dans le cas distribu�, car il y aura du temps de communication avec le temps de recalcul automatique doit co�ncider, les performances de la plupart des mod�les de formation diminue les contr�les dans 20%, la d�tection de d�bit du mod�le de classe de formation multi-machines ne sera pas affect�e.

Tableau 6. levage mouche pagaies technique de calcul de poids maximum de la formation d'une pluralit� de mod�les de lots

Open Source est pas facile, voler pagaie pour acc�l�rer, seul souhait

2013, Baidu a commenc� � d�velopper PaddlePaddle cadre de l'apprentissage en profondeur, de recherche et d'autres mod�le de base en ligne DNN d'affaires.

2016 Congr�s mondial de Baidu, Baidu a annonc� open source PaddlePaddle, marquant ainsi la naissance de la profondeur de la plate-forme d'apprentissage open-source interne.

2019 PaddlePaddle publi� le nom chinois � paddle volant �, mise � niveau vers qualit� industrielle complet open source plate-forme ouverte, la technologie et la construction de l'augmentation de l'�cologie industrielle.

Apr�s plusieurs ann�es ont insist� sur la bonne voie, l'h�lice de vol a commenc� � acc�l�rer.

Cependant, ces succ�s durement gagn�, car seule une tr�s petite partie de l'�co-construction open source, les soci�t�s commerciales ont tendance � consid�rer le rapport d'entr�e-sortie et d�velopper leur propre cadre d'apprentissage profond, � la fois les exigences de r�sistance technique compl�te AI, mais aussi besoin de d�velopper vivaces continuer � investir des ressources, le monde est que Google, Facebook, Baidu et d'autres g�ants majeurs d'Amnesty International continue d'investir dans ce sens.

Un cadre d'apprentissage profond pour les d�veloppeurs de produits � �tre approuv� par la majorit�, que sur la base d'une comp�titivit� technologique globale, durable pr�s des besoins de l'utilisateur de polissage, construire sur les �cosyst�mes en aval autour du cadre, �tablissant ainsi un haut degr� de comp�titivit� des barri�res.

Construire le cadre de l'apprentissage en profondeur est pas de raccourci, cr�er un v�ritable cadre de qualit� industrielle apprentissage en profondeur est, Baidu b�n�diction plus difficile voler pagaie, les nouveaux arrivants aussi b�ni.

�Hogwild: Une approche Lock-libre pour parall�lisation Stochastic Gradient Descent Feng Niu, Benjamin Recht, Christopher Re, Stephen J. Wright.

�Profonde gradient de compression :. R�duire la bande passante de communication pour la formation distribu�e Yujun Lin, Song Han, Huizi Mao, Yu Wang, William J. Dally

�Local SGD convergeant rapide et peu de communication. Sebastian U. Stich

�La formation de Deep Nets avec sublin�aire co�t m�moire. Tianqi Chen, Bing Xu, Zhang Chiyuan, Carlos Guestrin

Route de la soie

Apprenez � conna�tre la Chine

Soutien de dix millions de technologie de classification � l'�chelle, Baidu mouche cadre de l'apprentissage en profondeur industrielle palette d�finie