ing�nieur de recherche IBM dimension militaire: formation approfondie sur la fa�on dont le mod�le d'apprentissage � distance?

Lei Feng r�seau par AI Yanxishe : Avec la taille du r�seau de neurones apprentissage en profondeur augmente, la profondeur de la formation d'un r�seau de neurones (Deep Neural Networks, DNN) prennent souvent des jours ou des semaines m�me. Afin d'acc�l�rer l'apprentissage, ont souvent besoin distribu�s CPU / cluster GPU pour terminer toute la formation. Dans cet article, il est simple pour tout le monde � expliquer bri�vement comment le mod�le d'apprentissage de la profondeur de la formation distribu�e.

Lei Feng r�seau dans un avenir proche AI Yanxishe de classe en ligne ouverte, de l'ing�nieur de recherche IBM Systems Dr. Wu Wei pour tout le monde � faire un th�me de � �tude approfondie de la formation distribu�e � dans le partage en ligne, vous avez manqu� la diffusion en direct des �tudiants Si vous avez regard� le papier ont des doutes, mais aussi au Coll�ge des AI Mu Lei Feng montre de classe de r�seau lecture vid�o .

Ce qui suit est Lei Feng r�seau de contenu vid�o en direct de faire un bref rappel:

dimension militaire, IBM Systems Ing�nieur R & D, a travaill� au sein du Groupe Data Products Big Huawei et IBM China Research Institute, en tant qu'ing�nieur syst�mes / chercheur, le Dr System Engineering, Universit� Xi'an Jiaotong, la direction principale du d�veloppement de l'apprentissage distribu� dans le cadre de la formation en profondeur et mod�le.

grandes lignes de l'action:

Pourquoi la formation distribu� et distribu� mod�le d'apprentissage tensorflow architecture profondeur.
la r�plication et la r�plication entre la figure tensorflow figure.
mod�le de formation d'apprentissage en profondeur asynchrone et la formation synchrone.
�tude de cas: Comment le mod�le autonome de distribution.
pr�sentation de la performance de formation de mod�le distribu�.

Partager le contenu:

Bonjour � tous, je suis une dimension militaire, la premi�re partie d'aujourd'hui pour expliquer pourquoi la part de la formation � utiliser et distribu� architecture distribu�e de tensorflow, la deuxi�me partie de la r�plication et la r�plication parler entre carte Figure tensorflow, la troisi�me partie concerne la formation distribu�e synchrone br�ve formation et asynchrone. La quatri�me partie est sur la fa�on dont le mod�le distribu� autonome dans un mod�le distribu�, la cinqui�me partie porte sur la performance de la pr�sentation de la formation distribu�e.

Pourquoi l'utiliser distribu� la formation, la formation distribu�e portent principalement sur des probl�mes, et comment traiter?

La figure ci-dessous un sch�ma de l'architecture du centre de donn�es sur TPU

La premi�re raison est d'augmenter le d�bit de la formation; deuxi�me raison est que pour un grand train miniature, grand mod�le est adapt� en g�n�ral dans un seul appareil.

Ce qui suit peut �tre consid�r� comme l'abscisse gauche est le nombre de GPU, l'ordonn�e est la vitesse de traitement d'image.

Comment former pour le grand mod�le? L'approche est maintenant en train de d�manteler le mod�le � diff�rentes cartes GPU � l'int�rieur, chaque carte GPU dans une partie de la formation, de sorte que vous pouvez mettre en place un grand mod�le de formation distribu�e.

Comment parvenir � ce processus

La gauche est une op�ration de base du tensorflow de processus.

processus de d�veloppement tensorflow

architecture distribu�e tensorflow, son architecture est bas�e sur le ma�tre et l'architecture n�grier.

Ce sont la profondeur de parler ma�tre et n�grier du point de vue de l'apprentissage d'une architecture distribu�e, ce qui suit du point de vue du travailleur:

�tude approfondie des premiers param�tres de formation, qui param�tres distribu�s stock�s dans le serveur de param�tres, si le travailleur a besoin d'op�ration, il lit d'abord les param�tres du serveur aux param�tres de la CPU. � l'heure actuelle, la plupart de la profondeur de l'apprentissage et de la formation sont effectu�es sur le dispositif GPU, de sorte que vous devez copier les donn�es � lire sur le GPU, le GPU peut commencer � fonctionner de gauche � droite. Enfin trouv� par la variable de d�rivation correspondant � la pente, et le gradient dans la machine est copi�e dans la CPU correspondante, CPU lui envoie alors au serveur via un param�tre de communication de r�seau, ce qui est de voir le travailleur toute dans la perspective d'une architecture distribu�e.

Tensorflow dans la formation distribu�e il y a deux concepts les plus importants sont � la r�plication entre la figure � � copie dans la carte � et. Distribu� des moyens de formation il y a un groupe, d�finir un cluster distribu�. Ce qui suit est une copie de la figure int�rieure, cas unique pour plusieurs cartes.

Si plus d'une fois l'ordinateur, la distribution de donn�es caus�e par les goulets d'�tranglement de donn�es sera relativement importante, si la vue de la r�plication, les goulots d'�tranglement de transmission de donn�es se produisent. Le temps n�cessaire pour copier une salle de dessin, deux graphiques milieu des variables partag�es peut r�soudre le probl�me de la distribution des donn�es de formation, cette m�thode est applicable � la formation de carte multi-machine. la r�plication de la figure entre plusieurs clients, copier un seul client dans le diagramme.

Tensorflow encapsule avanc�s le API, les param�tres sont d�ploy�es automatiquement le param�tre de serveur, l'op�ration arithm�tique est �tablie � l'ouvrier, qui est r�alis� une pluralit� de code qui peut �tre ex�cut� sur travailleur, simplifie la pr�paration du programme client.

Comment trouver la valeur optimale distribu�e W? la formation de la formation synchrone et asynchrone Quelle est la diff�rence?

descente de gradient stochastique: une premi�re quantit� de calcul d'�quation de valeur d�riv�e partielle est trop important, peu pratique. Typiquement d�riv� de calcul, solution analytique.

Proc�d� d'algorithme du gradient stochastique distribu�e

Proc�d� de formation asynchrone: la formation asynchrone pour la t�che sur chaque noeud sur tensorflow m�thodes d'entra�nement ind�pendant, il ne n�cessite pas la synchronisation avec d'autres noeuds sur le serveur de param�tre de gradient.

la synchronisation de processus de formation: les besoins en formation et d'autres noeuds synchrones R�duire gradient sur le serveur de param�tres.

La quatri�me partie est de savoir comment �crire un exemple de formation de mod�le distribu�, vous pouvez regarder la lecture vid�o.

Voici un exemple d'une version autonome du mod�le de r�gression lin�aire

La cinqui�me partie est Comparaison des performances de la formation distribu�e

L'�valuation est g�n�ralement divis� en aspects du mod�le et des plates-formes. En ce qui concerne le mod�le des indicateurs couramment utilis�s sont: la pr�cision, le taux de rappel, AP et ainsi de suite. plate-forme

Principalement pour voir le SpeedUp d�bit.

la formation Asynchronous d�bit mieux que la formation synchrone, la formation afin que la formation synchrone asynchrone rapide.

Comparaison des algorithmes synchrones et asynchrones algorithmes

Ce sont le contenu principal de la part, le code qui met en uvre certaines des recommandations directement aux �l�ves regardent la lecture vid�o, mais �galement pr�occup� par la dimension militaire des clients adresse GitHub.

Micro-canal num�ro public: � AI Yanxishe � programme � long terme pour fournir des vid�os en direct gratuitement, s'il vous pla�t faites attention!

Route de la soie

Apprenez � conna�tre la Chine

ing�nieur de recherche IBM dimension militaire: formation approfondie sur la fa�on dont le mod�le d'apprentissage � distance? | Partager R�sum�