Apprenez � calculer la profondeur optimale du niveau du syst�me?

�Ji-won nouvelle recommandation

Source: titres Microsoft Research AI

Auteur: Wu Ming

[New Ji-won EXAMEN Dans l'image, la reconnaissance vocale, le traitement du langage naturel, l'apprentissage de renforcement, et bien d'autres domaines techniques, l'apprentissage en profondeur est av�r�e �tre tr�s efficace, et sur certaines questions a �t� atteint m�me au-del� du niveau humain. Cependant, la profondeur de l'apprentissage pour la puissance de calcul a une grande d�pendance, en plus de changer le mod�le et l'algorithme peut �tre optimis� pour l'apprentissage profond calcul� � partir du syst�me, am�liorant ainsi l'utilisation efficace des ressources informatiques? Cet article de Microsoft Research Asia groupe informatique h�t�rog�ne, recherche senior fellow Wu-ming de partager quelques-uns des points de vue qu'il optimisation calcul�e de la profondeur d'apprentissage avec vous.

�tude approfondie a fait ces derni�res ann�es des progr�s consid�rables, il a �t� ou devrait �tre appliqu� avec succ�s dans plusieurs de nos situations de vie, comme la conduite automatique, la s�curit�, la traduction, m�dicale et ainsi de suite. On peut dire, d'am�liorer grandement les capacit�s de calcul et de communication des ordinateurs est un facteur important pour favoriser la r�ussite de l'apprentissage en profondeur.

Pourquoi compter sur une grande �tude approfondie de la puissance de calcul?

Tout d'abord, la profondeur de l'apprentissage est bas� sur la nature statistique de la science, de sorte que des donn�es d'�chantillon � grande �chelle est essentielle pour l'effet de la profondeur de l'apprentissage. En second lieu, le plus grand et plus complexe mod�le de r�seau de neurones a �t� prouv� �tre tr�s efficace, et il est largement utilis� dans le produit, il cr�e �galement une plus grande demande de puissance de calcul et de consommation. Par exemple, avec 8 AlexNet r�seau de neurones de la couche 2012 pour obtenir le taux d'erreur de 16% sur ensemble de donn�es de IMAGEnet, la premi�re it�ration de la course de r�seau d'environ 1,4 besoins de calcul Gflop. Microsoft a propos� d'utiliser un r�seau de 152 neurones de la couche r�siduelle (le ResNet) pour obtenir 3,5% de taux d'erreur dans l'ensemble de donn�es 2015, qui calcule la quantit� d'environ une it�ration 22.6GFLOP, 16 fois le AlexNet. Dans l'environnement de production d'aujourd'hui, l'image, la voix et le langage naturel de traitement des mod�les connexes, comme la reconnaissance de visage, la voix-texte, la traduction automatique, m�me donn� une quantit� consid�rable de ressources informatiques, beaucoup reste encore plusieurs semaines pour compl�ter la formation.

Encore une fois, la profondeur du mod�le d'apprentissage est l'it�ration rapide. Dans le domaine de la grippe aviaire, le monde universitaire et de l'industrie annuelle soul�vera un grand nombre de nouveaux mod�les. Pour chaque probl�me r�el, les d�veloppeurs ont besoin de continuer � essayer diff�rents mod�les et des algorithmes, m�me pour le m�me algorithme de mod�le, ont �galement besoin d'aller encore et encore pour obtenir le meilleur param�tre pour pr�dire les r�sultats. On peut imaginer que si chaque mod�le de formation doit �tre quelques semaines, puis trouver le mod�le optimal du processus sera tr�s long et douloureux.

De plus, le mod�le a une ligne plus extr�me de raisonnement exigences de performance. ligne de service ont un accord de niveau de service rigide (SLA), de sorte que dans le d�ploiement r�el de grands mod�les, vous devez re-optimiser manuellement le cadre d'apprentissage en profondeur (par exemple tensorflow) ont �t� le mod�le form�, ce qui entra�ne des frais g�n�raux d'ing�nierie suppl�mentaires importants.

Ainsi, une �tude plus approfondie de profondeur calcul�e pour optimiser le d�veloppement rapide et l'application r�ussie de l'apprentissage en profondeur joue un r�le essentiel.

Calculer l'�tude en profondeur optimal des d�fis et opportunit�s

� l'heure actuelle, l'optimisation de la profondeur de l'apprentissage, il y a plusieurs d�fis majeurs:

1) l'unit� de calcul � l'unit� � l'unit� (par exemple, GPU), les contraintes de ressources ne peuvent souvent pas satisfaire aux exigences de traitement de donn�es � grande �chelle et le mod�le, alors la n�cessit� d'utiliser l'unit� de calcul multiple de la taille de l'appareil calcule la balance. Comment pouvons-nous r�duire les frais g�n�raux de la communication afin de maximiser le parall�lisme des multi-machine?

2) l'optimisation de calcul de r�seau neuronal permet de calculer une unit� mat�rielle unique pour maximiser l'efficacit�?

3) Alors que beaucoup l'unit� de calcul mat�riel (GPU, FPGA, etc.) la puissance de calcul est tr�s forte, mais leurs ressources m�moire (m�moire de l'appareil) est tr�s rare. Quand ils ne fournissent pas les ressources m�moire n�cessaires pour ex�cuter le mod�le, que ce soit le fonctionnement ne peut pas continuer, ou vous devez calculer les donn�es n�cessaires entre la m�moire principale et brassage m�moire de l'appareil avant et en arri�re, beaucoup de frais g�n�raux de fonctionnement. Comment pouvons-nous mieux utiliser les ressources m�moire limit�es du dispositif afin de ne pas avoir un impact n�gatif sur l'efficacit� de calcul?

4) Les d�veloppeurs de Deep apprentissage et les chercheurs en g�n�ral veulent juste se concentrer sur le mod�le de r�seau de neurones et lui-m�me algorithme, nous ne voulons pas �tre distraits par des probl�mes d'optimisation complexes. Le meilleur tel syst�me qui signifie que le logiciel cadre d'apprentissage en profondeur peut optimiser automatiquement les d�veloppeurs de mod�les et transparents. Alors, comment faire abstraction rationnelle des optimisations sp�cifiques pour le rendre plus souple et polyvalent, les questions d'int�gration plus facile dans le cadre du syst�me est la n�cessit� d'envisager s�rieusement.

En fait, tous les aspects du probl�me d'optimisation peut �tre vu sous deux angles algorithmes mod�les et syst�mes. D'une part, nous pouvons optimiser son efficacit� dans l'utilisation des ressources informatiques en changeant les mod�les et algorithmes pour am�liorer sa vitesse. Une telle optimisation est souvent tr�s efficace pour un algorithme particulier, mais il est difficile d'�tendre l'application � d'autres algorithmes. D'autre part, est l'�tude du groupe informatique h�t�rog�ne � Microsoft Research Asia en cours, il est algorithme d'optimisation mod�le ind�pendant mis en uvre dans le syst�me, ces optimisations peuvent g�n�ralement b�n�ficier des performances pour plus d'applications en m�me temps r�pondre �galement aux exigences de transparence que nous avons mentionn�s dans le texte pr�c�dent.

Optimisation du syst�me pour aider � calculer la profondeur de l'apprentissage

Afin de mieux comprendre ce niveau de syst�me d'optimisation, nous avons d'abord bri�vement expliquer la profondeur d'arri�re-plan syst�me cadre d'apprentissage. Populaire dans le syst�me profondeur de l'industrie d'aujourd'hui d'apprentissage (y compris tensorflow, PyTorch, CNTK, MxNet, Caffe, etc.) ont �t� aliment�s par un syst�me de conception de structure en couches. Fournit langage de haut niveau (par exemple, python) � une abstraction de l'interface d'extr�mit� avant permettant aux utilisateurs de la structure de r�seau de neurones facilement d�crite, � savoir la profondeur du mod�le d'apprentissage. D�crire un bon syst�me de mod�le a �t� ex�cut� avant, est d'abord converti en un graphique de flux de donn�es (flux de donn�es graphique). Dans le diagramme de flux de donn�es, un noeud est une des op�rations de la matrice sp�cifique (� savoir l'op�rateur, tel que le sigmo�de, Matrix Multiplication, etc.), tandis que les noeuds connect�s � des c�t�s diff�rents de l'op�ration est l'entr�e du noeud et de la matrice de sortie. Ce graphe de flux de donn�es peut �galement �tre consid�r�e comme une profondeur interm�diaire de l'expression de calcul d'apprentissage. Ensuite, le syst�me d'apprentissage en profondeur arri�re-plan recensera les flux de donn�es des diagrammes pour effectuer efficacement le mat�riel r�el, et la plupart optimisation au niveau du syst�me est termin� � ce stade.

formation d'apprentissage acc�l�r� en profondeur distribu�

Le principal goulot d'�tranglement dans la formation distribu�e que les frais g�n�raux de communication entre plusieurs machines. Aujourd'hui, la technologie du mat�riel de r�seau informatique ont fait de grands progr�s, (acc�s � distance Direct Memory, qui est une technologie de r�seau mat�riel, qui fournit l'ordinateur sur une machine distante sans n�cessiter d'intervention du processeur lors de l'acc�s m�moire � distance) de InfiniBand carte r�seau RDMA a �t� il peut fournir la bande passante du r�seau et la transmission retard de 50 microsecondes ~ 100Gbps. � l'heure actuelle, beaucoup d'apprentissage en profondeur pour le cluster GPU de l'application cible ont d�ploy� un tel r�seau. Cependant, la profondeur de l'apprentissage comment le syst�me peut utiliser pleinement de bonnes capacit�s de communication fournis par la formation du mat�riel distribu� pour une plus grande am�lioration des performances il? De plus, en utilisant le logiciel d'interface de communication RDMA pour contourner la pile de protocole TCP / IP, ce qui r�duit les frais g�n�raux de l'ex�cution d'un mode noyau du syst�me d'exploitation. Avec le soutien de la technologie de communication un tel r�seau, et les calculs relatifs aux frais de traitement de communication deviendra tr�s important, qui est ce m�canisme de communication de nombreux r�seau bas� � l'origine TCP / IP et la conception des probl�mes.

RPC (Remote Procedure Call, appel de proc�dure distante) est une des primitives de communication entre plusieurs machines abstraites est largement utilis�, ses objectifs de conception principaux sont universels. RDMA sans tenir compte de la profondeur de plusieurs cadre d'apprentissage utilisera le m�canisme RPC (par exemple GRPC) pour permettre une communication entre plusieurs machines. Cependant, le RPC a besoin de maintenir un cache priv� internes, qui devaient copier des donn�es entre l'introduction de la m�moire tampon interne et les donn�es utilisateur. Cette m�moire copie en t�te dans le cas d'utilisation de r�seau RDMA deviendra tr�s �vident. Nous avons observ� par le micro-indice de r�f�rence, par rapport � l'utilisation du protocole TCP / IP bas�e � GRPC, transmis directement via l'interface de messages RDMA (messages de tailles diff�rentes) peuvent �tre de 2 � 10 fois la performance.

Donc, pour l'apprentissage de la profondeur de charge de l'application comment faire une meilleure utilisation de la capacit� du mat�riel RDMA? Tout d'abord, nous analysons les caract�ristiques de l'apprentissage en profondeur de plusieurs applications:

1) Etude de profondeur Tensor calcul�e la plus importante structure de donn�es, une quantit� importante de temps de calcul est pass� sur le traitement de Tensor. Tensor est une structure de donn�es relativement simple, compos�e principalement de m�ta-donn�es et une charge utile de deux parties. La charge utile est l'�l�ment de base de la matrice, et les m�ta-donn�es sont Tensor informations de forme, � savoir les dimensions et la taille de chaque dimension. Cette structure simple au moment de la transmission de donn�es ne n�cessitent pas vraiment s�rialisation complexe et la fonction de d�s�rialisation.

2) Dans quelques cas, tout � fait, Tensor est dense, et sa taille est relativement importante, c'est-�-dire dans une telle transmission en temps Tensor n'a pas besoin d'�tre lot suppl�mentaire.

3) Proc�d� de formation d'apprentissage de profondeur est it�ratif. Chaque it�ration de traitement d'un mini-lot. Entre diff�rentes it�rations, diagrammes de flux de donn�es, et un grand nombre Tensor d'informations de forme ne change pas, et bon nombre des informations de forme doit �tre d�termin�e statiquement avant l'ex�cution.

Nous pouvons r�aliser plusieurs caract�ristiques bas�es sur l'analyse ci-dessus des flux de donn�es diagramme, Tensor peut trouver les informations de forme statiquement d�termin�e, de sorte que avant l'op�ration, l'espace m�moire attribu� pr�c�demment RDMA accessible � l'extr�mit� de r�ception, il peut �tre appropri� et adresse d'acc�s � distance transmis � l'exp�diteur. Ainsi, pendant le fonctionnement, l'�metteur peut demander un transfert unilat�ral Tensor RDMA des donn�es directement � l'extr�mit� de r�ception, de ce fait �vitant compl�tement la copie de m�moire suppl�mentaire ne sont pas n�cessaires pour atteindre le processus de communication sans copie. Nous appelons ces exp�riences de m�canisme sur tensorflow, et par rapport bas� sur GRPC TCP / IP, cette m�thode sur une gamme de mod�les typiques ont permis une am�lioration de la performance des temps. Et m�me pour RDMA optimis� GRPC par rapport � notre m�thode, il est encore en mesure d'atteindre plus de 50 pour cent d'am�lioration de la performance.

En outre, une autre question, nous nous concentrons sur la direction de la profondeur distribu�e apprend comment ressource automatiquement les diagrammes de flux de donn�es ind�pendantes font l'optimisation de l'ex�cution distribu�e, qui est automatiquement diviser les t�ches informatiques dans le graphe de flux de donn�es et attribuer le appropri� le calcul des ressources afin d'optimiser l'efficacit� de calcul. L'�quipe Jeff Dean dans cette direction de Google a �t� bien fait un travail de pionnier. Mais limit� au mod�le autonome et l'environnement d'exploitation parall�le multi-cartes, actuellement il est encore une direction tr�s importante et prometteuse, n�cessite une combinaison de donn�es en parall�le, des environnements distribu�s et h�t�rog�nes � prendre en compte.

unit� de calcul de l'efficacit� de l'op�ration de levage � l'unit�

Comme mentionn� pr�c�demment, en utilisant l'algorithme de mod�le cadre d'apprentissage en profondeur mis en uvre avant que le temps d'ex�cution est converti en un flux de donn�es figure. De nombreux mod�les ont des applications pratiques sont tr�s complexes, ils sont convertis en des flux de donn�es diagramme est g�n�ralement compos� de milliers d'op�rations d'un nud, qui contient beaucoup de tr�s petite quantit� de nuds de calcul, � savoir leur entr�e la petite taille de la matrice, ou est une complexit� de calcul logique est tr�s faible par rapport � la complexit� des donn�es d'entr�e est accessible. Un grand nombre de ces op�rations, le noeud suivant introduira un certain nombre de frais g�n�raux d'ex�cution, et cette surcharge peut �tre important.

1) La n�cessit� de planifier l'ex�cution d'une d�pendance de donn�es de noeud de flux noeuds graphique syst�me d'apprentissage de profondeur est en cours d'ex�cution. T�te de noeud de fonctionnement et la programmation de chaque noeud et la quantit� calcul�e de non directement li�e � la taille, de sorte que pour le calcul du diagramme de nombreuses petites d'�coulement comprenant des noeuds de service, le gestionnaire de r�seau apportera la t�te est relativement important;

2) pour le calcul de l'ex�cution sur le processeur graphique, la mise en uvre de chaque noeud correspond � l'op�ration de la fonction de noyau d'un GPU, et chaque ex�cution de la fonction de noyau est appel� � d�marrer la CPU n�cessite des pilotes graphiques, donc apportant souvent magnitude les frais g�n�raux. Le co�t de la r�alisation d'une petite quantit� de calcul par rapport � la fonction du noyau est tr�s claire;

3) une petite quantit� de noeud d'op�ration de calcul est souvent difficile de creuser suffisamment le parall�lisme de donn�es, et ne peut donc pas utiliser pleinement les ressources informatiques dans le mat�riel du processeur.

L'id�e principale de r�soudre ce probl�me est la fusion de noyau (Kernel Fusion). Quelques optimisations manuelles sur l'utilisation de cette id�e, comme les fonctions de la biblioth�que CuDNN RNN. NVIDIA base Ce cycle complet r�seau de neurones en fonction du noyau de GPU, en obtenant ainsi une tr�s bonne performance. Cependant, il est aussi tr�s �vident lacunes, il est moins souple et polyvalent, ne peut pas �tre appliqu�e dans d'autres r�seaux ou r�seau de neurones r�current dans un certain nombre de variantes. Et nous sommes plus pr�occup�s par la fa�on de mettre en uvre automatiquement optimis� pour tout mod�le de r�seau dans le syst�me d'apprentissage en profondeur.

� l'heure actuelle dans le monde universitaire et l'industrie utilise d�j� un code noyau du syst�me compil� m�thode pour g�n�rer la fusion, tels que TVM, Halide Taco et ainsi de suite. Ces syst�mes utilisent Tensor la repr�sentation alg�bre comme une extr�mit� avant, peut �tre compil� chaque Tensor expression Alg�bre � son tour en un code du noyau correspondant. Tenseur Alg�bre et peut �tre exprim�e comme la couche interm�diaire est le syst�me d'apprentissage inf�rieur int�gr� dans la profondeur, qui est un sch�ma de donn�es de haut niveau de flux peut �tre converti en un bloc de code comprenant Tensor Algebra-expression, et �tre ensuite compil�s dans le code ex�cutable . Cependant, ces syst�mes peuvent �tre fusionn�s � l'exploitation d'un nombre de noeuds de limites, pas bien pluralit� d'op�rations ponctuelles de non-fusion, par exemple une pluralit� d'op�rations de multiplication de matrice. Cependant, si nous brisons cette limite afin de trouver la fusion Plus nud Actions peut apporter plus importante am�lioration de la performance.

Une pluralit� d'op�rations ponctuelles de non-fusion dans l'environnement de fonctionnement du processeur graphique peut �tre difficile, car l'entr�e ponctuelle non-fonctionnement de chaque �l�ment des valeurs d'�l�ment de matrice peut d�pendre d'un certain nombre de diff�rentes positions avant le fonctionnement de la matrice de sortie, donc entre ces deux op�rations doivent ins�rer des primitives de synchronisation barri�re. Atteint dans les blocs GPU barri�re doivent veiller � ce que tous les fils du noyau lors de l'ex�cution est de rester actif, ce qui signifie que nous devons demander au noyau apr�s l'int�gration de l'utilisation d'un nombre limit� de blocs de fil, mais en m�me temps �tre capable de g�rer beaucoup plus qu'un fil num�ro de bloc de blocs de donn�es.

Pour r�soudre ce probl�me, nous essayons de filetage mod�le de bloc-fil persistant, qui est de commencer un nombre fixe de blocs de fil tout au long du cycle de vie du noyau fondu et les garder actifs. Nous optimiser le syst�me dans le processus de production de code de noyau de fusion dans un probl�me solution d'emballage similaire (bin-pack) que le fonctionnement de chaque graphe de flux de sous-donn�es de noeuds � �tre fusionn�e dans le bloc de donn�es � traiter affect� � l'appropri� blocs de fili�re active, de sorte que la charge de chacun des blocs de filet le plus uniform�ment possible, et le maintien de noeud d'op�ration arithm�tique de parall�lisme dans les donn�es d'origine graphe de flux.

Afin de g�n�rer optimis�e fonction noyau GPU, une consid�ration importante est la division rationnelle des blocs de fil et des blocs de donn�es. Toutefois, cela d�pend � son tour un certain nombre de facteurs complexes, tels que le fonctionnement op�ration de noeud et acc�s � la m�moire pour calculer le rapport de complexit�, la taille de la m�moire partag�e de la GPU, et le proc�d� de distribution de taille de fichier de registre et analogues. Par cons�quent, le meilleur choix est une d�cision difficile par la m�thode statique. Heureusement, l'apprentissage en profondeur it�rative et la n�cessit� d'un grand nombre d'it�rations pour fonction de Converge nous permet de tirer parti du d�but du processus it�ratif pour recueillir des informations dynamiquement lors de l'ex�cution afin d'optimiser le syst�me d'aide � prendre des d�cisions �clair�es.

les contraintes de ressources Overcome m�moire de l'appareil

Taille de la m�moire de l'appareil limite souvent la taille du mod�le qui peut �tre trait�, pour r�soudre ce probl�me une id�e est de compresser le mod�le et quantifi�. Aujourd'hui, le monde universitaire et l'industrie ont eu beaucoup de travail pr�sente de recherche diff�rentes compression et m�thodes quantitatives, cependant, l'utilisation de la compression et de quantifier le sc�nario d'application r�elle est encore un processus it�ratif fastidieux. Dans ce processus, l'utilisateur peut essayer les aspects suivants seront effectu�s.

1) diff�rentes m�thodes de compression. Par exemple, apr�s les valeurs des param�tres de mod�le, selon que ou proche de z�ro, ou de le transformer en une sorte de valeur contribution proche de z�ro? Lorsque la compression est pas n�cessairement consid�r� structur� (si elle est pour le GPU, vous devrez peut-�tre comprim� dans une matrice clairsem�e bloc pour am�liorer l'efficacit� op�rationnelle)? Le but est de quantifier la valeur de la gamme moyenne sur la base de division ou de regroupement sur la base de certains de fracture?

2) le degr� de compression diff�rent. Pour envisager de faire des param�tres de compression sur la couche de neurones qui, depuis pas tout le mod�le de couche comprim�e est sensible � l'effet de la m�me; s�lectionner diff�rents rapports de compression, ou le nombre de bits de quantification.

3) Afin de maintenir le mod�le � atteindre encore de bons r�sultats � taux de compression �lev�, le processus de compression peut avoir besoin d'�tre progressive, comme une compression de 10%, et une nouvelle formation, r�p�tez ce processus jusqu'� ce que vous obtenez le taux de compression cible. Donc, chaque fois que le taux de compression est un param�tre de processus graduel doivent �tre ajust�s.

De toute �vidence, un tel processus lourd n�cessite un bon outil pour le rendre facile. Ceci est aussi une question de notre groupe est concern�. Nous essayons de d�velopper API tensorflow pour permettre aux utilisateurs de contr�ler directement la quantification et les m�thodes de compression, des objets, et le degr� de script mod�le de processus.

La compression est souvent utilis�e pour quantifier et � la d�termination des performances et de faibles ressources m�moire lors du d�ploiement d'un mod�le, mais une id�e de r�solution mod�le de formation n'est pas probl�me de suffisamment de m�moire est de changer la m�moire informatique. Par exemple, si l'on calcule la quantit� de fonctionnement du noeud dans les donn�es diagramme de flux est faible, mais une grande quantit� de r�sultats interm�diaires de la sortie de donn�es, une meilleure approche est de ne pas enregistrer les r�sultats interm�diaires dans la m�moire, et plus tard il est utilis�, lorsque r�-effectuer le calcul de ce noeud d'op�ration. Bien s�r, il recalcul� ou introduit certains frais g�n�raux.

En fait, il existe une autre id�e de r�soudre ce probl�me, dans une large donn�es d'entr�e sont stock�es dans la m�moire principale sur le c�t� de l'unit� centrale, et pour r�aliser le fonctionnement du traitement du noeud en continu, une grande partie des donn�es d'entr�e copi�e dans GPU dispositif de m�moire, en copiant et asynchrone segment� de telle sorte que chaque segment est calcul�e et la prochaine fois que le temps de copie peut �tre empil� de mani�re � cacher les donn�es de la copie au-dessus. Pour une telle op�ration de multiplication de matrice, la complexit� de calcul depuis un acc�s � la m�moire plus �lev�e par rapport au degr� de complexit�, quand un grand segment, et le temps de calcul du temps de copie est chevauchement parfait. Toutefois, si l'op�ration � effectuer pas la multiplication de la matrice, mais certaines op�rations simples ponctuelles, la complexit� de calcul et une copie de la m�moire est aucun moyen de compenser le co�t. Donc, ce besoin d'approche pour maintenir l'int�gration du noyau combin�. Telles que la multiplication matricielle et les op�rations d'int�gration ponctuelle subs�quente, sont calcul�es pour chaque segment de la matrice segment�e de la multiplication point par point et les op�rations sont effectu�es, puis un retraitement � c�t� du segment.

Ceux-ci pensent et groupe de recherche informatique h�t�rog�ne � Microsoft Research Asia dans les probl�mes d'optimisation du cadre du syst�me d'apprentissage profondeur, nous esp�rons promouvoir davantage le d�veloppement de l'apprentissage en profondeur et de l'intelligence artificielle, m�me au niveau du syst�me. De plus, nous nous concentrons �galement sur la fa�on d'utiliser du mat�riel sur mesure (comme la puce FPGA et ASIC) pour acc�l�rer le calcul de la profondeur de l'apprentissage, ainsi que la fa�on de concevoir un cadre pour une performance optimale dans un environnement mat�riel h�t�rog�ne, bienvenue � ces recherches les �tudiants int�ress�s � se joindre � nous, s'il vous pla�t envoyez votre CV � la bo�te aux lettres miw@microsoft.com.

A propos de l'auteur

Wu Ming, chercheur principal � Microsoft Research Asia. En 2007, � l'Institut de l'informatique a rejoint Microsoft Research Asia apr�s un doctorat en architecture informatique r�alis�e. Le principal int�r�t de la recherche et la participation au cours int�r�ts de recherche comprennent les syst�mes distribu�s de traitement des transactions, de calcul et sch�ma artificiel de la plate-forme de moteur d'intelligence. Au cours des derni�res ann�es dans le domaine de haut niveau r�pondant plusieurs syst�mes (tels que SOSP, OSDI, INDS, ATC, EuroSys, socc, VLDB, etc.) dans les documents publi�s, et servi OSDI, ASPLOS, HotDep, r�unions du comit� de programme Middleware, etc., et publication SOSP'17 le pr�sident.

[] Joignez-vous � la communaut�

Ji-won nouvelles technologies AI + industrie du recrutement communautaire, a accueilli les �tudiants + industrie de la technologie AI a atterri int�r�t, plus Little Helper Micro Signal: aiera2015_3 �Dans le groupe, si elle est approuv�e seront invit�s dans le groupe, assurez-vous de modifier les commentaires apr�s avoir rejoint un groupe communautaire (Nom - Soci�t� - emploi, groupe professionnel d'examen plus rigoureux, s'il vous pla�t comprendre).

Route de la soie

Apprenez � conna�tre la Chine

Apprenez � calculer la profondeur optimale du niveau du syst�me?