Comment les universit�s nationales Shanghai Jiaotong la plus forte plate-forme informatique AI � faire? Super DGX-2 acc�l�ration de la recherche AI +

choses intellectuelles (num�ro public: zhidxcom) Wen | Xinyuan

Avec le d�veloppement AI bat son plein, la recherche fondamentale universitaire comme le front principal, capte la banni�re de la promotion du d�veloppement et de l'application de la grippe aviaire, comment construire comptage ultra-haute de la force n�cessaire pour acc�l�rer la recherche scientifique en AI et d�j� � l'ordre du jour.

Juste Novembre dernier, les universit�s nationales IA fortes plate-forme ouverte de calcul officielle, comte Peak Lida 16PFLOPS, fournir un soutien efficace pour le calcul de la force facult�s de l'Universit� Jiaotong de Shanghai et des instituts de recherche.

L'unit� de calcul plate-forme informatique AI construit par le Centre d'information du r�seau de l'Universit� Jiaotong de Shanghai (ci-apr�s d�nomm�e � unit� de calcul �), il a soutenu plus de 20 �quipes de recherche pour mener � bien l'IA et les applications HPC typiques tels que le travail de recherche et d'innovation.

R�cemment, quelque chose d'ing�nieur chilien avec le Centre d'information du r�seau, l'Universit� de Shanghai Jiaotong Cheng Shenggan �change approfondi d'essayer de comprendre l'histoire de la plate-forme informatique IA forte derri�re les coll�ges et les universit�s nationales.

Shanghai Network Information Universit� Jiaotong Centre Salle informatique

Tout d'abord, les coll�ges et les universit�s nationales plus t�t plate-forme informatique AI, toute utilisation de la file d'attente pr�s de 100%

Le pr�d�cesseur de Shanghai Jiaotong Network Information Center est Shanghai Jiaotong University Computing Center, fond� en 1973, Est d'�tablir la premi�re et l'un des plus grands centres informatiques dans les universit�s chinoises.

D�s 2013, le centre est super-ordinateur construit 1.0, c'est un syst�me HPC h�t�rog�nes, jusqu'� la performance de pointe 262TFLOPS , Class� n � 158 en Juin 2013 TOP500 Les classements mondiaux des supercalculateurs, est Tout d'abord, la r�gion de Shanghai est la premi�re fois des coll�ges nationaux et les universit�s.

Lorsque la recherche et le d�veloppement AI balayant les milieux universitaires, plus de professeurs AI dans l'espoir d'acc�l�rer leurs r�sultats de R & D, les ressources limit�es et le processus de d�ploiement de mat�riel de calcul de puissance complexe est devenu le principal support d'obstacles devant eux.

� ce stade, une maturit� et l'op�rateur stable a une plate-forme de planification solide des ressources en fonction de la force devient besoin juste, il peut �tre consid�r� comme source d'alimentation AI-demande et de la distribution, tandis que les �quipes d'op�rations sp�ciales et le soutien technique.

Cela permettra plus l'�quipe de recherche en IA en m�me temps r�pondre aux besoins informatiques, sans avoir � acheter du mat�riel eux-m�mes, ne pas passer du temps dans la configuration de l'environnement et le d�ploiement d'applications, mais plus concentr�s sur leurs propres projets de recherche.

Tout comme domestique plus L'un des coll�ges t�t pour s'impliquer dans le domaine de l'intelligence artificielle , L'Universit� Jiaotong de Shanghai a Rich AI calcul des besoins.

Coincide avec l'occasion de supercalculateurs it�ration, Universit� Jiaotong de Shanghai, la plate-forme informatique AI qui est la base du projet de 2018 � la construction de 2.0, il est �galement AI premi�res universit�s pour construire une plate-forme informatique unifi�e.

Universit� Jiaotong de Shanghai, AI fournit une plate-forme de calcul de stabilit� pour l'ensemble GPU puissant de planification des ressources de l'�cole prend �galement en charge les utilisateurs hors campus d'utiliser des ressources informatiques, compte pic Lida 16PFLOPS.

Shanghai Jiaotong serveur Network Information Center Universit�

cluster 2.04 ans � partir de 2019 a lanc� officiellement le d�ploiement de l'installation de l'�quipement, Cheng Shenggan �galement au cours de cette p�riode est impliqu�e dans la promotion de ce nouveau projet. Apr�s une s�rie de processus de r�novation de salle, l'expansion de l'�quipement de r�frig�ration, l'installation et la mise en service, 2.0 officiellement ouvert au campus depuis Novembre 2019.

Cheng Shenggan a r�v�l� qu'en D�cembre 2019 Shanghai Jiao Tong University, plates-formes informatiques AI tout au long de l'utilisation de files d'attente est proche de 100%, le taux d'utilisation des GPU de 70%, la charge AI-connexes atteint 75%, les 25% restants sont une partie de la charge de travail de calcul haute performance.

En second lieu, construire des plates-formes informatiques AI, trois avantages de l'Universit� de Shanghai Jiaotong

Dans le milieu de la recherche dans les coll�ges et les universit�s, pour construire la plate-forme informatique AI n'est pas facile, face � au moins trois d�fis.

Tout d'abord, l'�norme masse de donn�es et les besoins informatiques. AI et le HPC n�cessite d'�normes quantit�s de donn�es, une plate-forme informatique comprend AI n�cessite une puissance de traitement des donn�es plus �lev�es, la capacit� de stockage et des capacit�s de r�seau.

En second lieu, l'environnement de configuration. applications cadres et HPC AI, les biblioth�ques, les pilotes et d'autres composants complexes it�rativement rapidement mis � jour, besoin de consommer beaucoup de main-d'uvre pour maintenir et �crire la plate-forme enti�re de la pile logicielle.

En troisi�me lieu, la planification des ressources . plates-formes informatiques AI doivent avoir un son et un syst�me de planification des ressources solides, des outils de gestion clusters, grappe de planification flexible peut �tre consid�r� comme des ressources de la force, �viter toute interf�rence mutuelle entre les diff�rentes charges, am�liorer les applications d'efficacit� op�rationnelle.

Cependant, ce n'est pas difficile pour le minist�re de l'exp�rience de d�ploiement du cluster � la National Chiao Tung University de nombreuses ann�es a. Cheng Shenggan dit que, dans la construction plate-forme informatique AI, son �quipe a Trois principaux points forts :

Tout d'abord, Dans les premi�res structures de g�n�ration de temps de super-ordinateur de 1,0, Network Information Center a accumul� une �norme base d'utilisateurs, une op�ration forte et l'�quipe d'entretien et mature exp�rience de gestion groupe Peut assurer le bon fonctionnement stable du syst�me de cluster.

En second lieu, l'Universit� Jiaotong de Shanghai est l'une des plus anciennes universit�s ont commenc� � offrir des services de calcul GPU.

GPU est bon � la manipulation grande formation en profondeur et l'apprentissage des t�ches HPC typiques, l'Universit� de Shanghai Jiao Tong a de nombreuses ann�es d'accumulation dans le GPU pour faire de la recherche scientifique de base, l'�quipement informatique du GPU de pointe pour les besoins de l'�cole et ont une meilleure compr�hension.

En outre, la calculatrice a �galement propos� un mod�le de service � grand salaire � innovant.

Avec l'unit� de calcul de supercalculateurs fournit une richesse de la recherche scientifique de haut niveau et un soutien technique � l'utilisateur, et �tre �troitement recherche multidisciplinaire int�gr�, soutien � la recherche et le d�veloppement des �coles catalytiques.

En troisi�me lieu, la force derri�re un groupe de nombre �lev�: DGX-2 apporte la performance de l'�pid�mie

Mettre l'accent sur la plateforme de calcul AI lui-m�me, une telle force de comptage �lev� comment y parvenir? Dans le processus de d�ploiement de l'infrastructure sous-jacente, l'Universit� Jiao Tong de Shanghai et l'unit� de calcul �tait rest� sur les intersections choisies quoi?

Et Cheng Shenggan de l'�change, nous avons affin� plus important des trois.

1, s�lection de mat�riel: 8 DGX-2, pour cr�er une force puissante nombre de clusters AI

Depuis la formation en profondeur du GPU et l'apprentissage des performances �cologiques compl�te, par rapport � d'autres dispositifs informatiques des avantages les plus �vidents, section de calcul de la National Chiao Tung University en choisissant huit serveur op�rateur NVIDIA DGX-2 pour fournir une force de support sous-jacent.

Cabinet NVIDIA DGX-2

Ce choix a deux aspects principaux � prendre en compte. Premi�re �tude de la performance du GPU dans la formation et la profondeur �cosyst�me complet lui-m�me a un bord, et le second, l'Universit� Jiaotong de Shanghai a une longue exp�rience dans l'utilisation de l'�quipement informatique du GPU et de construire des grappes d'ordinateurs.

DGX-2 est le ma�tre de la capacit� de calcul et de stockage GPU NVIDIA d'ultra-�lev�, le NVIDIA en utilisant une vari�t� de technologies de l'Internet, d'am�liorer efficacement la bande passante d'interconnexion entre le GPU et inter-cluster.

Chaque DGX-2 construit 16 NVIDIA Tesla GPU V100, Cheng Shenggan sp�cifiquement mentionn�, DGX-2 �quip� de la technologie d'interconnexion innovante NVIDIA NVSwitch, peut supporter jusqu'� 16 interconnexion GPU, et dans les deux sens de la bande passante totale entre GPU mise � niveau 2.4TB / s.

DGX-2 utilise �galement une architecture �volutive, de sorte que la taille et de la complexit� du mod�le ne constitue pas une limitation architecture de l'application traditionnelle limite, 8 DGX-2 permet la capacit� d'apprentissage profond tenseur 16PFLOPS, stockage local NVMe atteint 300 To, qui peut faire face aux nombreux d�fis complexes de l'IA et HPC.

avantages de performance du mat�riel DGX-2, ce qui rend difficile de soutenir le serveur GPU pour soutenir pr�c�dent � grande �chelle des applications HPC et AI.

Par exemple, une �quipe de Shanghai Jiaotong University School of Life Sciences � faire cadriciel Relion pour les images cryo-EM une particule de traitement, des ensembles de donn�es utilis�s dans l'ordre jusqu'� 1 To. Ceci est trop grand pour les serveurs GPU ordinaires, mais avec l'aide de l'Universit� de Shanghai Jiaotong, plate-forme informatique AI, l'�quipe en utilisant la configuration 8 cartes machine enti�re DGX-26 noeuds, des t�ches de calcul termin� avec succ�s.

2, l'optimisation des logiciels: le mat�riel de collaboration pour am�liorer l'utilisation efficace du GPU

Avec l'infrastructure mat�rielle haute performance, mais aussi de penser Comment pouvons-nous mieux prot�ger l'utilisation efficace du GPU . � cet �gard, l'�quipe Cheng Shenggan o� l'accent du travail effectu� dans trois domaines.

(1) Mise en place d'un syst�me de fichiers partag� parall�le DGX-2 et tc groupe 2,0, ce syst�me de fichiers ainsi que DGX-2 NVMe stockage local, le taux de transmission de donn�es garanti maintenir �norme quantit� de donn�es de traitement de t�ches.

(2) AI en fonction de la plate-forme de calcul proprement dite, par l'interm�diaire SLURM Singularity syst�me de planification de t�che et la combinaison de r�cipient de techniques pour faire en sorte que l'op�ration d'utilisateur est l'isolement relativement ind�pendante et efficace des ressources de l'application la plus efficace pour fournir aux utilisateurs le meilleur soutien de la performance.

(3) pr�voit un processus d'optimisation particuli�re de l'image de vaisseau NGC pour l'utilisateur, afin d'optimiser encore davantage le processus de d�ploiement de logiciel.

Sur le directement DGX-2 compil� pour ex�cuter l'application peut faire face � processus complexe, l'optimisation des applications avec le dernier mat�riel n�cessaire pour adapter le champ AI complexe exp�rimental des probl�mes maintenant et difficiles telles que la gestion de l'environnement, afin que les utilisateurs ont besoin d'un haute performance, sur le d�ploiement de l'application de la bo�te tandis que NGC est un bon choix.

NGC est optimis�e pour conteneur GPU NVIDIA et la plate-forme HPC pile logicielle AI, fournissant plus de 50 applications li�es � l'image et le cadre, il simplifie le logiciel et le mat�riel et le logiciel processus de r�glage de proc�d� de co de d�ploiement.

Par exemple, en utilisant des donn�es de formation PyTorch ResNet50 fix�es sur IMAGEnet, le conteneur �tait la version sup�rieure de source d'image vitesse NGC.

3, l'exp�rience mise � niveau: entr�e unifi�e et la plate-forme supercalculateur

Etant donn� que la plate-forme informatique AI se fonde sur la plate-forme pour construire le calcul de cluster 2.0 pour l'IA pour cr�er une entr�e s�par�e, et il supercalculateur encore syst�mes utilisent une entr�e unique, l'unit� de calcul essai sp�cialement con�u.

Apr�s avoir test� les commentaires des utilisateurs, entr�e unifi�e de l'efficacit� de la gestion et la grippe de l'exp�rience utilisateur sont sup�rieurs.

Pour les utilisateurs Supercomputer anciens, le supercalculateur 1.0 utilisateur sans avoir � apprendre de nouvelles connaissances, vous pouvez rapidement ma�triser l'utilisation de la plate-forme de calcul AI.

Pour les nouveaux utilisateurs, l'�cole, l'entr�e unifi�e peut �galement r�duire le co�t de l'apprentissage sur leurs plates-formes informatiques dans la plate-forme de calcul intensif et l'utilisation AI.

Quatri�mement, pour am�liorer au maximum 1,8 fois! Super plateforme AI � l'efficacit� de boost consid�rablement am�lior� un certain nombre de la recherche scientifique

AI calcul plate-forme ouverte, fera les t�ches de traitement AI r�duisent encore le seuil, contribuent � aider les chercheurs scientifiques calcul�s plus pour r�aliser un travail de recherche plus efficace men�e par l'intelligence artificielle.

Articles pr�c�dents de recherche, 1.0 plate-forme informatique pour le service public comme une performance de niveau universitaire, il avait soutenu la science, l'ing�nierie, la sant�, la m�decine publi�e dans � Science �, � Nature � et d'autres revues de haut niveau. Aujourd'hui, la plate-forme informatique AI prend en charge un certain nombre de projets de recherche, le document a �galement �t� mis aux grandes conf�rences et revues.

A partir de ce mois-ci, l'Universit� Jiaotong de Shanghai, la plate-forme informatique AI a aid� Institut universitaire de Shanghai Jiao Tong de l'intelligence artificielle, multi-professeurs Institut de Bio-X, Michigan College et d'autres �quipe de recherche conjointe pour optimiser les applications de calcul et HPC AI, les gains d'efficacit� scientifiques les plus 18000 fois.

Cheng Shenggan nous pr�sente l'une des quatre applications typiques.

1, les applications Ai: les r�seaux de neurones binaires

Et une �quipe de l'Institut de g�nie �lectronique et information, �lectrique fait. Ils utilisent Tenseur de base acc�l�rer et d'optimiser la pr�cision de l'assemblage des donn�es lues, en utilisant une vitesse de formation atteint DGX-26826 de la figure sec, que ce qui a d�j� fonctionner dans le serveur 4 vitesses NVIDIA 1080Ti (103 images / sec. ) pour am�liorer les 66,3 fois.

2, applications AI: apprentissage de renforcement avec la classe de formation acc�l�r�e AlphaGo

L'�quipe de recherche a �galement fait de l'�cole de l'information �lectronique et g�nie �lectrique, gr�ce � l'utilisation de DGX-2, en utilisant la technologie NVIDIA MPS et ajust� l'�quilibrage de charge huit.

L'original avec deux NVIDIA Tesla carte v100 auto-formation aux �checs 500000 tours de batte prend 35 jours, et maintenant 34,8 heures pour compl�ter la formation.

3, applications AI: pr�diction bas�e sur la profondeur de l'�tude de la pollution atmosph�rique

L'�quipe de recherche de l'�cole des sciences et de g�nie de l'environnement. Ils utilisent la structure codec mod�le de liaison Conv-LSTM, l'�tude nationale de d�charge, la correspondance entre la r�partition m�t�orologique distribu�e de contaminants.

Apr�s avoir utilis� les it�rations de formation unique, syst�me DGX-2 plus rapide que avant d'utiliser une carte graphique NVIDIA P10031,6 fois plus rapide.

4, les applications HPC: r�solution phonon �quation de Boltzmann

En plus de fournir la force d'entra�nement de l'op�rateur pour la plate-forme informatique AI, AI supporte �galement les applications HPC. Par exemple, l'Union du Michigan College utilisera la plate-forme pour r�soudre l'�quation de Boltzmann phonon.

Ce calcul est effectu� par pr�c�demment CPU prend deux semaines, apr�s l'utilisation de huit DGX-2, le temps de compression est calcul�e � 2 minutes, vitesse de l'ascenseur pr�c�dent de 1,8 fois.

Conclusion: la plate-forme de calcul AI catalysera plus de recherche et de l'innovation

Network Information Center, Universit� Jiaotong de Shanghai, directeur de l'informatique repr�sente Lin Xinhua: � AI pour la science comme moyen quatri�me scientifique est devenue une tendance internationale, alors que les universit�s de renomm�e mondiale, des instituts de recherche dans la nouvelle plate-forme informatique pour le calcul num�rique et calculs AI pour �tre un pleine consid�ration. comme NVIDIA DGX-2 et les plates-formes de conteneurs NGC telle configuration mat�rielle avanc�es et des piles logicielles des programmes pour faire face aux nombreux d�fis de construire AI dans la plate-forme informatique de l'Universit� de l'environnement de recherche face � l'avancement de la discipline acc�l�r�e et l'int�gration de la discipline �.

Lin Xinhua pense, plate-forme informatique AI-orient�e est non seulement une �cole de plate-forme de services informatiques, il est une plate-forme de recherche et d'innovation interdisciplinaire, peut mener � la recherche appliqu�e et de l'innovation de haute performance typique des applications de calcul, AI, et d'autres grandes donn�es sur cette base.

Ensuite, l'unit� de calcul Centre d'information du r�seau de l'Universit� Jiaotong de Shanghai dans l'espoir plate-forme informatique AI pour une coop�ration approfondie avec plus d'utilisateurs, d�veloppez en profondeur la coop�ration dans plusieurs domaines de la recherche, le calcul scientifique pour r�soudre plus de probl�mes, l'Universit� nationale Chiao Tung pour aider � am�liorer encore le niveau de la recherche scientifique.

Merci pour la lecture. Cliquez pr�occupations � bord avec vous agitez � la pointe de la technologie -