Comment les universités nationales Shanghai Jiaotong la plus forte plate-forme informatique AI à faire? Super DGX-2 accélération de la recherche AI +

choses intellectuelles (numéro public: zhidxcom) Wen | Xinyuan

Avec le développement AI bat son plein, la recherche fondamentale universitaire comme le front principal, capte la bannière de la promotion du développement et de l'application de la grippe aviaire, comment construire comptage ultra-haute de la force nécessaire pour accélérer la recherche scientifique en AI et déjà à l'ordre du jour.

Juste Novembre dernier, les universités nationales IA fortes plate-forme ouverte de calcul officielle, comte Peak Lida 16PFLOPS, fournir un soutien efficace pour le calcul de la force facultés de l'Université Jiaotong de Shanghai et des instituts de recherche.

L'unité de calcul plate-forme informatique AI construit par le Centre d'information du réseau de l'Université Jiaotong de Shanghai (ci-après dénommée « unité de calcul »), il a soutenu plus de 20 équipes de recherche pour mener à bien l'IA et les applications HPC typiques tels que le travail de recherche et d'innovation.

Récemment, quelque chose d'ingénieur chilien avec le Centre d'information du réseau, l'Université de Shanghai Jiaotong Cheng Shenggan échange approfondi d'essayer de comprendre l'histoire de la plate-forme informatique IA forte derrière les collèges et les universités nationales.

Shanghai Network Information Université Jiaotong Centre Salle informatique

Tout d'abord, les collèges et les universités nationales plus tôt plate-forme informatique AI, toute utilisation de la file d'attente près de 100%

Le prédécesseur de Shanghai Jiaotong Network Information Center est Shanghai Jiaotong University Computing Center, fondé en 1973, Est d'établir la première et l'un des plus grands centres informatiques dans les universités chinoises.

Dès 2013, le centre est super-ordinateur construit 1.0, c'est un système HPC hétérogènes, jusqu'à la performance de pointe 262TFLOPS , Classé n ° 158 en Juin 2013 TOP500 Les classements mondiaux des supercalculateurs, est Tout d'abord, la région de Shanghai est la première fois des collèges nationaux et les universités.

Lorsque la recherche et le développement AI balayant les milieux universitaires, plus de professeurs AI dans l'espoir d'accélérer leurs résultats de R & D, les ressources limitées et le processus de déploiement de matériel de calcul de puissance complexe est devenu le principal support d'obstacles devant eux.

À ce stade, une maturité et l'opérateur stable a une plate-forme de planification solide des ressources en fonction de la force devient besoin juste, il peut être considéré comme source d'alimentation AI-demande et de la distribution, tandis que les équipes d'opérations spéciales et le soutien technique.

Cela permettra plus l'équipe de recherche en IA en même temps répondre aux besoins informatiques, sans avoir à acheter du matériel eux-mêmes, ne pas passer du temps dans la configuration de l'environnement et le déploiement d'applications, mais plus concentrés sur leurs propres projets de recherche.

Tout comme domestique plus L'un des collèges tôt pour s'impliquer dans le domaine de l'intelligence artificielle , L'Université Jiaotong de Shanghai a Rich AI calcul des besoins.

Coincide avec l'occasion de supercalculateurs itération, Université Jiaotong de Shanghai, la plate-forme informatique AI qui est la base du projet de 2018 à la construction de 2.0, il est également AI premières universités pour construire une plate-forme informatique unifiée.

Université Jiaotong de Shanghai, AI fournit une plate-forme de calcul de stabilité pour l'ensemble GPU puissant de planification des ressources de l'école prend également en charge les utilisateurs hors campus d'utiliser des ressources informatiques, compte pic Lida 16PFLOPS.

Shanghai Jiaotong serveur Network Information Center Université

cluster 2.04 ans à partir de 2019 a lancé officiellement le déploiement de l'installation de l'équipement, Cheng Shenggan également au cours de cette période est impliquée dans la promotion de ce nouveau projet. Après une série de processus de rénovation de salle, l'expansion de l'équipement de réfrigération, l'installation et la mise en service, 2.0 officiellement ouvert au campus depuis Novembre 2019.

Cheng Shenggan a révélé qu'en Décembre 2019 Shanghai Jiao Tong University, plates-formes informatiques AI tout au long de l'utilisation de files d'attente est proche de 100%, le taux d'utilisation des GPU de 70%, la charge AI-connexes atteint 75%, les 25% restants sont une partie de la charge de travail de calcul haute performance.

En second lieu, construire des plates-formes informatiques AI, trois avantages de l'Université de Shanghai Jiaotong

Dans le milieu de la recherche dans les collèges et les universités, pour construire la plate-forme informatique AI n'est pas facile, face à au moins trois défis.

Tout d'abord, l'énorme masse de données et les besoins informatiques. AI et le HPC nécessite d'énormes quantités de données, une plate-forme informatique comprend AI nécessite une puissance de traitement des données plus élevées, la capacité de stockage et des capacités de réseau.

En second lieu, l'environnement de configuration. applications cadres et HPC AI, les bibliothèques, les pilotes et d'autres composants complexes itérativement rapidement mis à jour, besoin de consommer beaucoup de main-d'uvre pour maintenir et écrire la plate-forme entière de la pile logicielle.

En troisième lieu, la planification des ressources . plates-formes informatiques AI doivent avoir un son et un système de planification des ressources solides, des outils de gestion clusters, grappe de planification flexible peut être considéré comme des ressources de la force, éviter toute interférence mutuelle entre les différentes charges, améliorer les applications d'efficacité opérationnelle.

Cependant, ce n'est pas difficile pour le ministère de l'expérience de déploiement du cluster à la National Chiao Tung University de nombreuses années a. Cheng Shenggan dit que, dans la construction plate-forme informatique AI, son équipe a Trois principaux points forts :

Tout d'abord, Dans les premières structures de génération de temps de super-ordinateur de 1,0, Network Information Center a accumulé une énorme base d'utilisateurs, une opération forte et l'équipe d'entretien et mature expérience de gestion groupe Peut assurer le bon fonctionnement stable du système de cluster.

En second lieu, l'Université Jiaotong de Shanghai est l'une des plus anciennes universités ont commencé à offrir des services de calcul GPU.

GPU est bon à la manipulation grande formation en profondeur et l'apprentissage des tâches HPC typiques, l'Université de Shanghai Jiao Tong a de nombreuses années d'accumulation dans le GPU pour faire de la recherche scientifique de base, l'équipement informatique du GPU de pointe pour les besoins de l'école et ont une meilleure compréhension.

En outre, la calculatrice a également proposé un modèle de service « grand salaire » innovant.

Avec l'unité de calcul de supercalculateurs fournit une richesse de la recherche scientifique de haut niveau et un soutien technique à l'utilisateur, et être étroitement recherche multidisciplinaire intégré, soutien à la recherche et le développement des écoles catalytiques.

En troisième lieu, la force derrière un groupe de nombre élevé: DGX-2 apporte la performance de l'épidémie

Mettre l'accent sur la plateforme de calcul AI lui-même, une telle force de comptage élevé comment y parvenir? Dans le processus de déploiement de l'infrastructure sous-jacente, l'Université Jiao Tong de Shanghai et l'unité de calcul était resté sur les intersections choisies quoi?

Et Cheng Shenggan de l'échange, nous avons affiné plus important des trois.

1, sélection de matériel: 8 DGX-2, pour créer une force puissante nombre de clusters AI

Depuis la formation en profondeur du GPU et l'apprentissage des performances écologiques complète, par rapport à d'autres dispositifs informatiques des avantages les plus évidents, section de calcul de la National Chiao Tung University en choisissant huit serveur opérateur NVIDIA DGX-2 pour fournir une force de support sous-jacent.

Cabinet NVIDIA DGX-2

Ce choix a deux aspects principaux à prendre en compte. Première étude de la performance du GPU dans la formation et la profondeur écosystème complet lui-même a un bord, et le second, l'Université Jiaotong de Shanghai a une longue expérience dans l'utilisation de l'équipement informatique du GPU et de construire des grappes d'ordinateurs.

DGX-2 est le maître de la capacité de calcul et de stockage GPU NVIDIA d'ultra-élevé, le NVIDIA en utilisant une variété de technologies de l'Internet, d'améliorer efficacement la bande passante d'interconnexion entre le GPU et inter-cluster.

Chaque DGX-2 construit 16 NVIDIA Tesla GPU V100, Cheng Shenggan spécifiquement mentionné, DGX-2 équipé de la technologie d'interconnexion innovante NVIDIA NVSwitch, peut supporter jusqu'à 16 interconnexion GPU, et dans les deux sens de la bande passante totale entre GPU mise à niveau 2.4TB / s.

DGX-2 utilise également une architecture évolutive, de sorte que la taille et de la complexité du modèle ne constitue pas une limitation architecture de l'application traditionnelle limite, 8 DGX-2 permet la capacité d'apprentissage profond tenseur 16PFLOPS, stockage local NVMe atteint 300 To, qui peut faire face aux nombreux défis complexes de l'IA et HPC.

avantages de performance du matériel DGX-2, ce qui rend difficile de soutenir le serveur GPU pour soutenir précédent à grande échelle des applications HPC et AI.

Par exemple, une équipe de Shanghai Jiaotong University School of Life Sciences à faire cadriciel Relion pour les images cryo-EM une particule de traitement, des ensembles de données utilisés dans l'ordre jusqu'à 1 To. Ceci est trop grand pour les serveurs GPU ordinaires, mais avec l'aide de l'Université de Shanghai Jiaotong, plate-forme informatique AI, l'équipe en utilisant la configuration 8 cartes machine entière DGX-26 noeuds, des tâches de calcul terminé avec succès.

2, l'optimisation des logiciels: le matériel de collaboration pour améliorer l'utilisation efficace du GPU

Avec l'infrastructure matérielle haute performance, mais aussi de penser Comment pouvons-nous mieux protéger l'utilisation efficace du GPU . À cet égard, l'équipe Cheng Shenggan où l'accent du travail effectué dans trois domaines.

(1) Mise en place d'un système de fichiers partagé parallèle DGX-2 et tc groupe 2,0, ce système de fichiers ainsi que DGX-2 NVMe stockage local, le taux de transmission de données garanti maintenir énorme quantité de données de traitement de tâches.

(2) AI en fonction de la plate-forme de calcul proprement dite, par l'intermédiaire SLURM Singularity système de planification de tâche et la combinaison de récipient de techniques pour faire en sorte que l'opération d'utilisateur est l'isolement relativement indépendante et efficace des ressources de l'application la plus efficace pour fournir aux utilisateurs le meilleur soutien de la performance.

(3) prévoit un processus d'optimisation particulière de l'image de vaisseau NGC pour l'utilisateur, afin d'optimiser encore davantage le processus de déploiement de logiciel.

Sur le directement DGX-2 compilé pour exécuter l'application peut faire face à processus complexe, l'optimisation des applications avec le dernier matériel nécessaire pour adapter le champ AI complexe expérimental des problèmes maintenant et difficiles telles que la gestion de l'environnement, afin que les utilisateurs ont besoin d'un haute performance, sur le déploiement de l'application de la boîte tandis que NGC est un bon choix.

NGC est optimisée pour conteneur GPU NVIDIA et la plate-forme HPC pile logicielle AI, fournissant plus de 50 applications liées à l'image et le cadre, il simplifie le logiciel et le matériel et le logiciel processus de réglage de procédé de co de déploiement.

Par exemple, en utilisant des données de formation PyTorch ResNet50 fixées sur IMAGEnet, le conteneur était la version supérieure de source d'image vitesse NGC.

3, l'expérience mise à niveau: entrée unifiée et la plate-forme supercalculateur

Etant donné que la plate-forme informatique AI se fonde sur la plate-forme pour construire le calcul de cluster 2.0 pour l'IA pour créer une entrée séparée, et il supercalculateur encore systèmes utilisent une entrée unique, l'unité de calcul essai spécialement conçu.

Après avoir testé les commentaires des utilisateurs, entrée unifiée de l'efficacité de la gestion et la grippe de l'expérience utilisateur sont supérieurs.

Pour les utilisateurs Supercomputer anciens, le supercalculateur 1.0 utilisateur sans avoir à apprendre de nouvelles connaissances, vous pouvez rapidement maîtriser l'utilisation de la plate-forme de calcul AI.

Pour les nouveaux utilisateurs, l'école, l'entrée unifiée peut également réduire le coût de l'apprentissage sur leurs plates-formes informatiques dans la plate-forme de calcul intensif et l'utilisation AI.

Quatrièmement, pour améliorer au maximum 1,8 fois! Super plateforme AI à l'efficacité de boost considérablement amélioré un certain nombre de la recherche scientifique

AI calcul plate-forme ouverte, fera les tâches de traitement AI réduisent encore le seuil, contribuent à aider les chercheurs scientifiques calculés plus pour réaliser un travail de recherche plus efficace menée par l'intelligence artificielle.

Articles précédents de recherche, 1.0 plate-forme informatique pour le service public comme une performance de niveau universitaire, il avait soutenu la science, l'ingénierie, la santé, la médecine publiée dans « Science », « Nature » et d'autres revues de haut niveau. Aujourd'hui, la plate-forme informatique AI prend en charge un certain nombre de projets de recherche, le document a également été mis aux grandes conférences et revues.

A partir de ce mois-ci, l'Université Jiaotong de Shanghai, la plate-forme informatique AI a aidé Institut universitaire de Shanghai Jiao Tong de l'intelligence artificielle, multi-professeurs Institut de Bio-X, Michigan College et d'autres équipe de recherche conjointe pour optimiser les applications de calcul et HPC AI, les gains d'efficacité scientifiques les plus 18000 fois.

Cheng Shenggan nous présente l'une des quatre applications typiques.

1, les applications Ai: les réseaux de neurones binaires

Et une équipe de l'Institut de génie électronique et information, électrique fait. Ils utilisent Tenseur de base accélérer et d'optimiser la précision de l'assemblage des données lues, en utilisant une vitesse de formation atteint DGX-26826 de la figure sec, que ce qui a déjà fonctionner dans le serveur 4 vitesses NVIDIA 1080Ti (103 images / sec. ) pour améliorer les 66,3 fois.

2, applications AI: apprentissage de renforcement avec la classe de formation accélérée AlphaGo

L'équipe de recherche a également fait de l'École de l'information électronique et génie électrique, grâce à l'utilisation de DGX-2, en utilisant la technologie NVIDIA MPS et ajusté l'équilibrage de charge huit.

L'original avec deux NVIDIA Tesla carte v100 auto-formation aux échecs 500000 tours de batte prend 35 jours, et maintenant 34,8 heures pour compléter la formation.

3, applications AI: prédiction basée sur la profondeur de l'étude de la pollution atmosphérique

L'équipe de recherche de l'École des sciences et de génie de l'environnement. Ils utilisent la structure codec modèle de liaison Conv-LSTM, l'étude nationale de décharge, la correspondance entre la répartition météorologique distribuée de contaminants.

Après avoir utilisé les itérations de formation unique, système DGX-2 plus rapide que avant d'utiliser une carte graphique NVIDIA P10031,6 fois plus rapide.

4, les applications HPC: résolution phonon équation de Boltzmann

En plus de fournir la force d'entraînement de l'opérateur pour la plate-forme informatique AI, AI supporte également les applications HPC. Par exemple, l'Union du Michigan College utilisera la plate-forme pour résoudre l'équation de Boltzmann phonon.

Ce calcul est effectué par précédemment CPU prend deux semaines, après l'utilisation de huit DGX-2, le temps de compression est calculée à 2 minutes, vitesse de l'ascenseur précédent de 1,8 fois.

Conclusion: la plate-forme de calcul AI catalysera plus de recherche et de l'innovation

Network Information Center, Université Jiaotong de Shanghai, directeur de l'informatique représente Lin Xinhua: « AI pour la science comme moyen quatrième scientifique est devenue une tendance internationale, alors que les universités de renommée mondiale, des instituts de recherche dans la nouvelle plate-forme informatique pour le calcul numérique et calculs AI pour être un pleine considération. comme NVIDIA DGX-2 et les plates-formes de conteneurs NGC telle configuration matérielle avancées et des piles logicielles des programmes pour faire face aux nombreux défis de construire AI dans la plate-forme informatique de l'Université de l'environnement de recherche face à l'avancement de la discipline accélérée et l'intégration de la discipline ».

Lin Xinhua pense, plate-forme informatique AI-orientée est non seulement une école de plate-forme de services informatiques, il est une plate-forme de recherche et d'innovation interdisciplinaire, peut mener à la recherche appliquée et de l'innovation de haute performance typique des applications de calcul, AI, et d'autres grandes données sur cette base.

Ensuite, l'unité de calcul Centre d'information du réseau de l'Université Jiaotong de Shanghai dans l'espoir plate-forme informatique AI pour une coopération approfondie avec plus d'utilisateurs, développez en profondeur la coopération dans plusieurs domaines de la recherche, le calcul scientifique pour résoudre plus de problèmes, l'Université nationale Chiao Tung pour aider à améliorer encore le niveau de la recherche scientifique.

Merci pour la lecture. Cliquez préoccupations à bord avec vous agitez à la pointe de la technologie -

Suifenhe: dissimulation rapport, la maladie de fausses déclarations et d'autres indices qui peuvent être vérifiés prix 2000 $
Précédent
D'un blocus militaire pour lutter contre la législation épidémique la technologie de l'art martial, élévation puce interne décennie infrarouge route
Prochain
« Oxford English Dictionary » Mise à jour: comment l'épidémie affecte notre langue?
Petit compte à rebours de vacances, mais ne pas oublier d'aller travailler le dimanche! Jours fériés cas de « Mouvement Quatrième mai », sera mis pour encore longtemps?
Zhou Bridge Street au premier trimestre de 2020, « deux nouveaux » secrétaire du parti de la réunion ordinaire tenue en douceur
Ministère de la Sécurité publique a publié la manière la plus complète de la fraude des télécommunications
Bon 365 | « ou le nom de l'amour, la pratique et le dévouement du cur"
Guerre « peste » spectre Beat Shu dernier don de 87 ans, partie
Profondeur | deux organisations stimuler conjointement, lorsque le jeu peut entrer dans les Jeux Olympiques?
2020 Malaisie tourisme annuler les gens de l'industrie du Voyage Malaisie vont d'ici?
séminaires Cloud | Yuan, Ming et la collision: une nouvelle pensée de l'histoire monétaire et de l'histoire financière
Lire le texte « Platinum grand Dieu » écrivain publié la liste, le texte web thèmes plus divers
Un sport de semaine Nouveau | velours côtelé à l'extérieur des chaussures Nike avec la nouvelle fin d'encre, Yeezy débuts pantoufles en plein air
Ravi de rentrer à la maison! Mito grand nombre d'enregistrements de lot publié la dernière mise en quarantaine de l'aide de Pudong Ange Hubei