Article d�taill� NVIDIA Tesla vient de sortir V100 exactement o� le b�tail?

Note de la r�daction: 11 mai Conf�rence annuelle sur la technologie GPU 2017 � San Jose, en Californie, a eu lieu le NVIDIA a publi� le Tesla V100, le plus fort connu dans l'histoire des acc�l�rateurs GPU. Apr�s la sortie, Nvidia premi�re fois dans le d�veloppeur blog officiel a publi� un billet de blog, y compris une analyse d�taill�e de Tesla V100, GPU GV100, Tensor Core et l'architecture Volta, etc., les nouvelles fonctionnalit�s / contenu technique des nouveaux produits, Lei Feng r�seau compil� comme suit.

Nous savons tous, que ce soit la reconnaissance vocale, assistant personnel ou de formation virtuelle, d�tection de ligne, ou la recherche de syst�me de pilotage automatique et le d�veloppement dans ces domaines de l'intelligence artificielle, les scientifiques de donn�es sont confront�s � des d�fis de plus en plus complexes de l'IA. Afin de mieux atteindre le pouvoir assez futuriste de ceux-ci, il est n�cessaire d'introduire une partie du mod�le d'apprentissage en profondeur exponentielle plus complexe dans la pratique.

D'autre part, HPC (High Performance Computing) a jou� un r�le essentiel dans la recherche scientifique moderne. Que ce soit les pr�visions m�t�orologiques, la recherche de nouveaux m�dicaments, ou pour explorer l'avenir de l'�nergie, les chercheurs ont besoin d'utiliser des syst�mes informatiques � grande �chelle dans le monde r�el faire tous les jours toutes sortes de simulation et de pr�vision. Gr�ce � l'introduction de la technologie AI, HPC peut consid�rablement am�liorer l'efficacit� du personnel de recherche scientifique de grande analyse des donn�es et obtenir des pr�c�demment par des m�thodes de simulation et de pr�vision traditionnels ne peuvent pas obtenir une nouvelle conclusion.

Afin de promouvoir davantage le d�veloppement du HPC et des domaines connexes de l'IA, a r�cemment publi� une nouvelle g�n�ration d'acc�l�rateur GPU NVIDIA Tesla V100. Il est bas� sur la derni�re plate-forme de GPU Volta NVIDIA GV100 et une vari�t� d'innovation technologique perturbatrice qui peut fournir une plate-forme puissante de calcul pour une vari�t� de syst�mes Supercomputing, que ce soit dans le domaine du calcul de simulation scientifique scientifique comme le principal moyen de, ou afin de discerner les myst�res de donn�es la science des donn�es est objective, Tesla V100 peut fournir un soutien solide pour les applications li�es calcul de la force.

Ci-dessous, nous allons noyau Tesla V100 � travers ce blog: l'architecture Volta de faire une analyse en profondeur, tout en aidant les d�veloppeurs � comprendre ce qu'il apporte des avantages sp�cifiquement dans le d�veloppement r�el.

Tesla V100: AI Source de calcul de puissance et HPC

NVIDIA Tesla V100 est le plus �lev� des processeurs parall�les de performance du monde, con�u pour le traitement des besoins puissante capacit� informatique pour soutenir HPC intensive, AI et graphiques de traitement des t�ches.

Le noyau Tesla acc�l�rateur V100 est processeur GPU GV100. Bas� sur la derni�re technologie d'emballage de pr�cision 12nm de TSMC FFN processus con�u sp�cifiquement pour NVIDIA, GV100815 mm2 taille de la puce, l'int�gration de la structure interne du transistor jusqu'� 21.100.000.000. Par rapport � la g�n�ration pr�c�dente, ce qui est le GPU de la s�rie Pascal, GV100 n'a pas seulement fait des progr�s substantiels dans la performance de calcul, mais ajoute �galement de nombreuses nouvelles fonctionnalit�s resplendit. Y compris une rationalisation plus pouss�e de la programmation GPU et les processus de d�ploiement d'applications, et la profondeur optimis�e pour l'utilisation des GPU des ressources. En cons�quence, GV100 tout en offrant de puissantes performances de calcul est �galement tr�s puissance, la figure suivante montre la comparaison des performances Tesla acc�l�rateur V100 et g�n�rations pr�c�dentes Tesla P100 acc�l�rateur formation mod�le ResNet-50 et de raisonnement, peut voir le dernier � V100 beaucoup plus que le P100 de la g�n�ration pr�c�dente.

Tesla V100 principales caract�ristiques sont r�sum�es ci-dessous:

l'architecture pour le streaming multiprocesseur (SM) l'optimisation de l'apprentissage en profondeur. En tant que composant de noyau de processeurs GPU, en architecture Volta NVIDIA redessin� SM, Pascal par rapport � l'architecture pr�c�dente, cette g�n�ration SM permet d'am�liorer le rendement �nerg�tique d'environ 50%, peut am�liorer de mani�re significative la FP32 (unique dans la m�me gamme de puissance pr�cision de virgule flottante) et FP64 (double pr�cision de virgule flottante) de puissance de calcul. Con�u sp�cialement pour l'apprentissage en profondeur de nouveaux sc�narios de formation Tensor de base dans le mod�le, peut atteindre une vitesse maximale de 12 TFLOP (billion Op�rations � virgule flottante par seconde). En outre, �tant donn� que la nouvelle architecture SM pris des chemins de donn�es s�par�s et parall�les pour les donn�es entiers et � virgule flottante, donc dans le calcul g�n�ral et adresse des sc�narios de calcul peut produire une bonne efficacit� du m�lange. l'architecture Volta nouvelle fonction d'ordonnancement de threads ind�pendant permet �galement le parall�lisme � grain fin fin entre la synchronisation des threads et la collaboration. Enfin, un nouveau cache de donn�es combin� et le sous-syst�me de m�moire partag�e cache L1 a �galement am�lior� significativement les performances, tout en simplifiant grandement l'�tape de programmation du d�veloppeur.

La deuxi�me g�n�ration NVLink. La deuxi�me g�n�ration d'interconnexion � haute vitesse NVIDIA NVLink technologie multi-GPU et le syst�me multi-GPU / CPU est configur� pour fournir une bande passante plus �lev�e, plus de connexions et une plus grande �volutivit�. GV100 GPU prend en charge jusqu'� 6 liens NVLink, chacun des 25 GB / s, un total de 300 Gb / s. NVLink prend �galement en charge la fonction de contr�le du processeur et la coh�rence du cache bas�e sur des serveurs CPU IBM Power 9. En outre, la nouvelle version de la technologie NVIDIA DGX-1V super-ordinateur AI est �galement utilis� NVLink offre une plus grande �volutivit� pour la formation de mod�le d'apprentissage ultra-rapide en profondeur.

HBM2 m�moire: plus rapide et plus efficace. Volta hautement optimis� sous-syst�me de m�moire de 16 Go HBM2 offre jusqu'� 900 Go / s de bande passante m�moire de pointe. Par rapport � la g�n�ration pr�c�dente Pascal GP100, une nouvelle g�n�ration � partir du contr�leur de m�moire et la m�moire de bande passante combin�e g�n�ration Samsung HBM2 Volta de 1,5 fois, et �galement sur le rendement de plus de 95% de la charge de travail.

Volta multiprocesseur service (Service multi-processus, MPS) . Volta MPS est une nouvelle fonctionnalit� Volta l'architecture GV100, serveur CUDA MPS peut fournir l'acc�l�ration mat�rielle pour les composants cl�s, ce qui entra�ne dans une sc�ne de t�ches informatiques multi-GPU partag� am�lioration significative des performances, l'isolement et la qualit� de service (QoS). Le nombre maximum de clients Volta MPS MPS soutiendra �galement une augmentation de 16 � 48 �re Pascal.

services de traduction de m�moire et adresse unifi�e am�lior�es. Volta GV100 GV100 m�moire unifi�e dans une nouvelle technologie pour atteindre compteur d'acc�s qui peut �tre r�gl�e avec pr�cision pages m�moire adressable de chaque processeur selon la fr�quence d'acc�s, ce qui am�liore grandement l'efficacit� de l'utilisation de la m�moire partag�e entre les processeurs. De plus, la plate-forme IBM Power, le nouveau service de traduction d'adresses (Address Translation Services, ATS) permet un acc�s direct � la CPU de table de page de m�moire GPU.

Groupes coop�ratifs (Cooperative Group) et la nouvelle API de lancement coop�rative (d�but API de collaboration) . Groupes coop�ratifs est un nouveau mod�le de programmation CUDA introduit 9, pour l'organisation de groupe de fils de communication. Groupes de coop�ration permet aux d�veloppeurs d'exprimer la communication entre la taille des fils, en les aidant � une plus riche, la d�composition parall�le plus efficace (d�compositions). Depuis s�rie Kepler, toutes les caract�ristiques de base de soutien GPU NVIDIA coop�rative Groupes. Pascal et s�rie Volta prend �galement en charge la nouvelle API de lancement coop�rative, la synchronisation peut �tre r�alis�e entre les blocs de filetage CUDA � travers l'API. En outre Volta ajoute �galement le support pour le nouveau mode synchrone.

la performance maximale et modes d'efficacit� maximale. Comme son nom l'indique, au mode de performances, une vitesse Tesla V100 fonctionnera ind�finiment, pour atteindre un niveau TDP 300W (puissance de conception thermique), afin de r�pondre aux besoins des applications qui n�cessitent la vitesse et le d�bit de donn�es maximum de calcul le plus rapide. Le mode le plus efficace permet aux gestionnaires de centres de donn�es pour ajuster le niveau de puissance Tesla V100 � la meilleure performance �nerg�tique par watt compte de la puissance de sortie. En outre, Tesla V100 prend �galement en charge la puissance limite sup�rieure est pr�vue dans la totalit� de la GPU, tout en r�duisant consid�rablement la consommation d'�nergie, le cadre satisfaire � des exigences de performance.

Logiciel optimis� pour Volta. Une vari�t� de nouvelles versions du cadre d'apprentissage profond (y compris Caffe2, MXNet, CNTK, tensorflow, etc.) peut r�duire consid�rablement l'utilisation du temps de formation de mod�le Volta et d'am�liorer la performance de la formation � plusieurs nuds. Volta divers version optimis�e des biblioth�ques de l'acc�l�ration GPU (y compris cuDNN, cuBLAS et TensorRT, etc.) peuvent �galement �tre � l'appui des nouvelles fonctionnalit�s de la Volta GV100, offrant de meilleures performances et de soutien pour les applications HPC de l'apprentissage en profondeur. De plus, NVIDIA CUDA Toolkit la version 9.0 ajoute un nouveau support pour l'API Volta et de nouvelles fonctionnalit�s pour aider les d�veloppeurs plus facilement programm�es pour ces nouvelles fonctionnalit�s.

architecture mat�rielle GPU GV100

Volta GPU �quip� GV100 de NVIDIA Tesla V100 est le plus puissant acc�l�rateur de performances processeur parall�le informatique du monde. Ce qui, GPU GV100 a une s�rie d'innovations de mat�riel, des algorithmes d'apprentissage de profondeur et d'un cadre, des syst�mes HPC et les applications, il fournit un puissant op�rateur de soutien de la force. O� la performance dans l'art comme le montre la figure. HPC, HPC � diverses t�ches, plus rapidement que la moyenne Tesla V100 Tesla P1001,5 fois (� base Tesla V100 carte prototype).

Tesla V100 performances de pointe � virgule flottante et arithm�tique d'entier, de la mani�re suivante pic performances de calcul (GPU en fonction de la fr�quence d'horloge de survolteur):

� double virgule flottante de pr�cision (FP64) le calcul de la performance: 7,5 TFLOP / s;

simple pr�cision (FP32) le calcul de la performance: 15 TFLOP / s;

la multiplication et l'accumulation de matrice de pr�cision de m�lange: 120 Tensor TFLOP / s.

Et comme avant Pascal GP100, GV100 aussi par un certain nombre de graphiques groupes de traitement (Graphics Processing Cluster, GPC), un cluster de traitement des textures (texture traitement cluster, TPC), Streaming multiprocesseurs (Streaming multiprocesseur, SM) et le contr�leur m�moire. Un GPU complet de GV100 de six GPC, 84 e Volta SM, 42 �me PTC (PTC comprenant chacun deux SM) et huit contr�leur de m�moire 512 (4096). Dans lequel chaque noyau SM FP3264, le noyau 64 INT32, FP64 noyau 32 avec huit nouveaux Tenseur de base. Pendant ce temps, chaque SM contient �galement quatre unit�s de traitement texture (unit�s de texture).

Plus pr�cis�ment, une version compl�te Volta GV100 contient un total de 5376 FP32 nucl�aire, nucl�aire INT325376, 2688 FP64 nucl�aire, 672 et 336 unit�s de texture Tensor de base. Chaque contr�leur de m�moire est reli� � un cache de niveau 2768 Ko, chaque pile est constitu�e d'un contr�leur de m�moire DRAM HBM2. Dans l'ensemble, GV100 contient un total de 6144KB cache secondaire. La figure suivante montre la version compl�te de la Volta GV100 avec 84 unit�s SM, il faut noter que les diff�rents produits peuvent avoir des configurations diff�rentes, telles que Tesla V100 seulement 80 SM.

Le tableau suivant montre la comparaison avec les cinq derni�res ann�es, la s�rie Tesla V100 de param�tres anciens d'acc�l�rateur Tesla.

Volta SM (Streaming multiprocesseur)

Pour fournir une meilleure performance, plus bas que les instructions existantes Volta SM SM et la latence du cache, et fait une �tude approfondie optimis� pour les applications sp�ciales. Ses principales caract�ristiques sont les suivantes:

�tablir nouveau calcul de la matrice de formation de la profondeur de la pr�cision de m�lange FP16 / FP32 Tenseur de base;

des performances plus �lev�es et plus am�lior�e des donn�es de cache L1 faible latence;

jeu d'instructions am�lior� pour le d�codage simplifi� et de raccourcir l'instruction de retard;

taux d'horloge plus �lev�es et l'efficacit� �nerg�tique.

La figure suivante montre la structure de base de l'unit� Volta GV100 SM.

Tensor de base: � la fois l'instruction de fonctionnement est le format de donn�es

La nouvelle Tensor l'architecture de base Volta GV100 est l'une des plus importantes nouvelles fonctionnalit�s dans la formation du mod�le de r�seau de neurones est tr�s grand, il peut fournir de puissantes performances de calcul pour le syst�me. Tesla V100 de base Tensor peut d�duire la formation de mod�le pertinent et les applications jusqu'� 120 TFLOPS flottants tenseur point est calcul� comme l'apprentissage en profondeur. Plus pr�cis�ment, l'�tude approfondie de la formation du mod�le, par rapport � FP32 fonctionnement du P100, le nouveau Tensor de base offre jusqu'� 12 TFLOPS vitesse de pointe sur Tesla V100. En ce qui concerne l'apprentissage de l'estimation de la profondeur par rapport � l'op�ration sur P100 FP16, vous pouvez atteindre le plus haut sommet de 6 fois TFLOPS. Tesla GPU V100640 contient un total de Tensor de base, chaque streaming multiprocesseur (SM) contient huit.

Il est bien connu, la multiplication de la matrice de base de formation de r�seau de neurones, la profondeur de chacune de la couche de connexion r�seau de neurones, la matrice d'entr�e pour �tre multipli�e par les coefficients de pond�ration pour obtenir l'entr�e de la couche suivante. Comme on le voit ci-dessous, par rapport � l'architecture de la g�n�ration pr�c�dente Pascal GP100, Tesla V100 Tenseur de base de la performance de l'op�ration de multiplication de matrice d'au moins 9 fois am�lior�.

Comme cette partie du sous-titre, Tensor de base non seulement un nouveau jeu d'instructions et efficace, ou � une op�ration de format de donn�es.

Dans l'architecture Volta vient de sortir, chaque Tensor noyau contient une matrice 4x4x4 de files d'attente de traitement, pour achever la structure du r�seau de neurones est le plus commun op�ration D = AxB + C. Dans laquelle A, B, C, D sont quatre matrice 4 � 4, il est appel� 4x4x4. Comme cela est repr�sent� ci-dessous, l'entr�e A, B d�signe FP16 matrice, tandis que la matrice peut �tre FP16 C et D, peuvent �tre FP32.

De par leur conception, Tenseur de base peut �tre effectu�e sur toutes les fr�quences d'horloge jusqu'� 64 fois la pr�cision de m�lange flottant FMA, qui est le produit de deux entr�es FP16, FP32 un plus. Et parce que chaque cellule contient huit SM Tensor de base, et donc g�n�ralement chaque horloge 1024 peut effectuer des op�rations � virgule flottante. Cette architecture fait Volta, l'application de l'apprentissage en profondeur le d�bit par rapport aux cellules normales, chaque op�ration am�liore consid�rablement la 8 fois SM FP32 Pascal GP100, par rapport au GPU Pascal P100, Volta totale V100 GPU d�bit multipli� par 12. La figure suivante montre une norme Volta GV100 Tensor processus de base.

Au cours de l'ex�cution du programme, la pluralit� de coeurs Tenseur collaborer � travers l'unit� de cha�ne. les fils de cha�ne fournit �galement une plus grande op�ration matricielle 16x16x16 peut �tre trait� par Tenseur Cores. Ces op�rations comme une op�ration matricielle de stade CUDA cha�ne niveau divulgu�s dans l'API du CUDA C. Par la programmation CUDA C, les d�veloppeurs peuvent utiliser ces API ouvertes sur la base de la multiplication Tensor Cores, op�rations d'addition et la matrice de stockage.

cache am�lior�e L1 et les donn�es de la m�moire cache partag�e

Volta SM L1 donn�es du cache du sous-syst�me de m�moire partag�e et li� � l'autre, am�liore significativement la performance, mais aussi simplifie grandement les �tapes de programmation aux d�veloppeurs, et les co�ts de d�bogage du syst�me ou � proximit� de la performance du syst�me optimal.

Il convient de souligner, cache de donn�es combin�es et l'architecture Volta fonctions de m�moire partag�e dans un bloc de m�moire dans la pratique, dans l'ensemble sont deux types d'acc�s m�moire offre les meilleures performances. La capacit� de m�moire combin�e atteint 128 KB / SM, est plus grande que l'ancienne version du cache GP100 plus de 7 fois, et tout ce qui peut �tre configur� pour bloc de cache exclusif est partag�. En outre, l'unit� de traitement de texture peut �galement utiliser ces cache. Par exemple, si la m�moire partag�e est mis � 64Ko, les op�rations de texture et de chargement / stockage peuvent �tre utilis�s dans L1 capacit� r�siduelle de 64 Ko.

En g�n�ral, et � titre d'originalit� de m�moire partag�e associ�e � l'autre, de telle sorte que le cache L1 Volta GV100 ayant une largeur de bande inf�rieure � la vitesse �lev�e pass� cache GPU NVIDIA L1 et un retard plus �lev�. Comme un aspect d'un tuyaux de flux de donn�es � haut d�bit jouent un r�le, il peut �galement fournir une bande passante �lev�e et un faible acc�s de latence � haut degr� pr�cis de la multiplicit� des donn�es.

La figure suivante montre la comparaison des performances du cache L1 de Volta et Pascal.

La puissance de calcul

support GPU pour GV100 nouvelle Compute capacit� de NVIDIA 7.0. Le tableau suivant pr�sente une comparaison de la capacit� de calcul GPU NVIDIA entre les diff�rentes architectures.

ordonnancement des threads ind�pendants

Volta par rapport � l'architecture pr�c�dente GPU NVIDIA r�duit consid�rablement la difficult� de la programmation, l'utilisateur peut se concentrer davantage sur la vari�t� des applications diverses. Volta GV100 est le premier � supporter GPU ind�pendant de planification de fil, qui est-�-dire, peut �tre plus synchroniser finement et de collaborer � un programme de diff�rents threads. Un objectif majeur de la conception est de r�duire les co�ts de d�veloppement des proc�dures Volta requis pour ex�cuter sur le GPU, et le m�canisme de partage flexible entre threads, �ventuellement faire l'informatique parall�le plus efficace.

Avant le mode multi-instruction de fil unique (MOD�LES SIMT)

Pascal et avant que le GPU peut �tre r�alis�e par un groupe de fils 32 dans la terminologie de SIMT �galement appel� funes. Pascal dans la cha�ne, 32 fils qui utilisent le m�me compteur de programme, et dans le fil de cha�ne qui est d�sign� par un masque actif valide (masque actif). Cela signifie que diff�rents chemins d'ex�cution de certains fils sont � �tat inactif �, le montre la figure ci-apr�s, l'ordre d'ex�cution d'une cha�ne dans les diff�rentes branches. Dans le processus, le masque original sera d'abord sauv� jusqu'� la fin des funes fils d'ex�cution convergent vers une nouvelle fois, le masque sera restaur�, puis ex�cuter � nouveau le programme.

Essentiellement, les ressources en mode SIMT Pascal n�cessaires pour suivre le fil en r�duisant l'�tat et reprendre activement les discussions en parall�le pour maximiser l'efficacit�. Lorsque ce suivi de l'�tat d'enfiler l'ensemble du mod�le de funes, en fait des moyens de branche parall�le que lorsque le programme appara�t dans les funes sont effectivement r�alis�es l'ordre, ici a un sens perdu en parall�le jusqu'� la fin des branches parall�les. En d'autres termes, Dans diff�rents fils de cha�ne bien ex�cut�s en parall�le, mais en m�me fils de cha�ne dans la branche, mais l'ordre d'ex�cution est r�tablie que, incapable d'�changer des informations et partager des donn�es entre eux.

Prenons, par exemple, n�cessite des donn�es pr�cises partag�es par ces algorithmes, dans diff�rents threads acc�dent � la protection de verrouillage du bloc de donn�es et m�canisme d'exclusion mutuelle, parce que le fil rencontre incertaine � partir de laquelle la cha�ne, si facilement conduire � une impasse. Par cons�quent, Pascal et avant le GPU, les d�veloppeurs doivent �viter une synchronisation fine � grain fin, ou d'utiliser ces algorithmes ne se verrouillent pas se fier ou une distinction claire entre la cha�ne.

Instruction architecture unique Volta de mode multi-thread

Volta mis en oeuvre dans l'ensemble des fils (fils de cha�ne, quel que soit d ') au m�me niveau de simultan�it� r�soudre ce probl�me, pour chaque fil, y compris le compteur de programme et de la pile d'appel, Volta maintient le m�me �tat d'ex�cution, comme le montre.

Volta m�canisme d'allocation de thread s�par� permet au GPU d'ex�cuter des autorisations donnent � tout un fil, le fil faisant une plus grande efficacit�, mais aussi de partager des donn�es entre les threads plus raisonnables. Afin de maximiser l'efficacit� de la parall�le, Volta un optimiseur de calendrier peut d�cider de la mani�re de regrouper les m�mes fils de cha�ne en vigueur, et avec des moyens pour SIMT. Cela permet non seulement de maintenir un haut dans le pr�c�dent GPU NVIDIA SIMT d�bit et une plus grande flexibilit�: Maintenant, le fil peut �tre restaur� sur une branche et de la sous-cha�ne, et, Volta ces fils continuera � ex�cuter le m�me code regroup�s, de sorte qu'ils fonctionnent en parall�le.

La figure suivante montre un �chantillon de mode multi-thread Volta. De ce programme si / branche d'autre peut maintenant �tre espac�s en s�rie de temps, comme le montre la figure. Vous pouvez le voir, le processus de mise en uvre est encore SIMT dans tout un cycle d'horloge, et comme avant, les m�mes fils de cha�ne dans tous valides, le noyau CUDA ex�cute la m�me instruction, qui peut encore maintenir l'efficacit� de l'architecture pr�c�dente. Le point est, cette capacit� de planification Volta ind�pendants, ce qui permet aux programmeurs d'avoir la possibilit� de d�velopper des algorithmes complexes et sophistiqu�s et des structures de donn�es d'une mani�re plus naturelle. Bien que le planificateur de soutenir l'ind�pendance du thread d'ex�cution, mais il sera toujours optimis� asynchrone snippet ceux pour assurer la convergence des threads simultan�ment, afin de maximiser l'efficacit� de SIMT.

En outre, l'image ci-dessus il y a un ph�nom�ne int�ressant: Z dans tous les fils ne sont pas en cours d'ex�cution en m�me temps. En effet, les donn�es de sortie Z peut �tre n�cessaire de traiter d'autres branches, dans ce cas, la force une convergence est pas s�r. Mais avant que la structure est g�n�ralement consid�r�e comme A, B, X, Y ne comprend pas les op�rations de synchronisation, le programmateur convergera sur Z d�termin� � �tre en s�curit�.

Dans ce cas, Le programme peut appeler la nouvelle fonction de synchronisation de cha�ne __syncwarp dans 9 fils CUDA pour forcer une convergence , Comme le montre la figure. Ensuite fil branche ne peut pas synchroniser l'ex�cution Z, mais en appelant la fonction __syncwarp, avec une cha�ne dans tous les chemins d'ex�cution de ces discussions sera termin�e avant d'ex�cuter l'instruction Z. De m�me, avant la mise en uvre de Z, si appel de la fonction __syncwarp, le programme sera forc� de Converge avant d'ex�cuter Z. Si le d�veloppeur peut assurer la s�curit� de cette op�ration � l'avance, sans doute cela am�liorera l'efficacit� de SIMT dans une certaine mesure.

Famine sans algorithme

algorithme sans Famine est un mode important de m�canisme d'ordonnancement des threads ind�pendants, en particulier: Dans un calcul simultan�, aussi longtemps que le syst�me assure que tous les threads ont l'acc�s appropri� aux ressources concurrentielles, il peut assurer sa mise en uvre correcte. Par exemple, si vous essayez d'acqu�rir le fil mutex (mutex) a finalement r�ussi � obtenir la serrure, vous pouvez utiliser un mutex (ou serrure ordinaire) dans l'algorithme sans faim. Dans le syst�me ne prend pas en charge l'algorithme sans faim peut se produire un ou plusieurs threads verrouillent de fa�on r�p�t�e et lib�rer les circonstances mutex, ce qui peut causer d'autres threads jamais �t� en mesure d'acqu�rir avec succ�s le probl�me de mutex.

Voir ci-dessous pour un exemple d'un ordonnancement des threads ind�pendant Volta: liste doublement cha�n�e ins�rer dans un noeud applications multi-thread.

__device__ insert_after void (* Noeud A, Noeud * b)

{

Noeud * c;

Serrure (a); serrure (a- > suivante);

c = a- > suivant;

a- > next = b;

b- > prev = a;

b- > next = c;

c- > prev = b;

d�verrouillage (c); d�verrouillage (a);

}

Dans cet exemple, chaque �l�ment d'une liste doublement li� contenant au moins trois parties: un pointeur vers l'arri�re, un pointeur vers l'avant, et un verrou (a seulement la permission de mettre � jour le noeud de propri�taire). La figure suivante illustre le processus d'insertion du noeud B entre A et C.

Volta Ce m�canisme assure ind�pendant d'ordonnancement de threads que m�me si le courant fil T0 point de prise de verrouillage A, avec une cha�ne dans un autre thread T1 peut encore attendre d�bloquer avec succ�s, sans affecter l'ex�cution de T0. Cependant, il est le point remarquable est que, parce que le m�me efficace sous un fil de cha�ne est r�alis�e en m�me temps, de sorte que le fil et d'autres fils peuvent faire d�verrouillage de rendement bloqu� r�duite.

Il faut aussi faire attention � ce que, donc dans cet exemple, pour chaque noeud verrouill� affecte l'utilisation est essentielle � la performance du GPU. Traditionnellement, pour cr�er un tableaux de liaisons bidirectionnelles peuvent utiliser le verrouillage � gros grains (ce qui correspond � la serrure � grain fin a �t� mentionn� pr�c�demment), verrouillage de gros grains prendra sur toute la structure (toutes verrouill�es), plut�t que pour prot�ger chaque noeud, respectivement. En raison de contention de verrouillage entre les fils, de sorte que cette m�thode peut entra�ner une r�duction des performances du code multithread (architecture Volta permet au maximum jusqu'� 163,840 threads simultan�s). Ensuite, vous pouvez essayer d'utiliser l'approche de verrouillage � grains fins dans chaque noeud, donc en plus de l'insert dans certains nuds, un grand effets concurrentiels de blocage moyenne de la liste de chaque noeud sera grandement r�duite.

Cette serrure � grain fin avec la table de liaison bidirectionnelle mentionn�e ci-dessus est juste un exemple tr�s simple, nous voulons transmettre le message que cet exemple: Par un m�canisme d'ordonnancement des threads s�par�s, les d�veloppeurs peuvent mettre en uvre des algorithmes familiers et des structures de donn�es sur le GPU NVIDIA de la mani�re la plus naturelle.

r�sum�

NVIDIA Tesla V100 est sans aucun doute la plus GPU centre de donn�es avanc� au monde, con�u pour le traitement a besoin d'une puissante capacit� informatique pour soutenir HPC intensive, AI et graphiques de traitement des t�ches. Avec le plus supports d'architecture de pointe NVIDIA Volta, Tesla V100 peut fournir des performances de calcul 100 CPU en un seul GPU, ce qui rend les donn�es scientifiques, les chercheurs et les ing�nieurs pour r�pondre une fois pens� pour �tre impossible d�fi.

640 noyaux de transport Tensor, ce qui rend Tesla V100 est devenu le premier � briser la marque de 100 TFLOPS consid�r�s comme des produits GPU d'apprentissage profond de la force du monde. Coupl� avec une nouvelle g�n�ration de technologie NVIDIA NVLink jusqu'� la connectivit� de 300 Go /, sc�narios r�els utilisateurs peuvent combiner plusieurs GPU V100 pour construire une forte activit� de centres d'apprentissage en profondeur. De cette fa�on, les semaines une fois requis de mod�le AI peuvent maintenant �tre termin�s dans quelques jours de formation. Avec r�duire consid�rablement le temps de formation, toute la r�alit� de l'avenir sera probablement r�solu AI.

Source: NVIDIA Developer Blog

Lei Feng r�seau (num�ro public: Lei Feng net) Lecture connexe:

2 heures, 5 grandes nouvelles AI, les actions Nvidia ont grimp� de 17%, la conf�rence GTC sont Jen-Hsun Huang a dit quelque chose quoi? (Inclus PPT) | GTC 2017

GTC Assembl�e g�n�rale le deuxi�me jour Faits saillants: NVIDIA lancera un syst�me VR multi-utilisateurs, les d�veloppeurs pr�voient de former 100000 | GTC 2017

Route de la soie

Apprenez � conna�tre la Chine