Ali technologies publiques fondamentales: comment d�coller quatre champions du monde, la performance raisonnant cinq fois plus rapide que la seconde

Wen | Ali nuage �quipe informatique h�t�rog�ne Qubit produit | Num�ro public QbitAI

R�cemment, l'Universit� de Stanford DAWNBench IMAGEnet derniers r�sultats annonc�s, Ali que Google, Facebook, etc., de la liste des quatre premiers du monde.

128 cartes V100, la formation ResNet50, � seulement 158 secondes sera en mesure d'obtenir TOP5 pr�cision de 93%.

Pour la classification d'image dans l'image 10000 ensemble de validation, la pr�cision de TOP5 pas moins de 93%, plus de 5 fois la performance inf�rence plus rapide que la seconde.

On peut dire, que ce soit la performance de la formation et de co�t, ou le raisonnement de la performance et de co�t, refl�te un logiciel d'optimisation de classe mondiale AI Ali performance ultime et la capacit� d'int�gration mat�rielle dans l'informatique h�t�rog�ne.

Ali est de savoir comment faire? Quatre gagnant - Ali nuage �quipe h�t�rog�ne technologie informatique partag� le secret derri�re.

C'est ce genre de r�sultats?

Stanford DAWNBench, est un mod�le de formation d'apprentissage approfondi de la fin et la plate-forme d'analyse comparative des performances de raisonnement, publi� par l'Universit� de Stanford en 2017 sur la conf�rence SPNI, apr�s avoir obtenu un large soutien de l'industrie.

Google, Facebook VMWARE et d'autres soci�t�s de renomm�e mondiale se sont joints. DAWNBench est devenu le plus influent domaine de l'intelligence artificielle, l'un des plus liste de classement faisant autorit�.

Pour les calculs AI, l'indicateur deux plus importants est la performance et le co�t. Apr�s les derniers r�sultats annonc�s, montre Ali nuage int�gr� mat�riel et des logiciels dans le domaine de la formation et le raisonnement des capacit�s d'optimisation des performances de classe mondiale.

Ali nuage acc�l�r� �quipe informatique h�t�rog�ne AI a d�clar� que le plus important que l'arme Ali nuage volant de la recherche en IA moteurs acc�l�r� AIACC, Ali nuage puces auto-d�velopp�s Hanguangmen 800 (appel� AliNPU) et h�t�rog�nes Le cloud computing Ali services cloud.

AIACC Ali auto-d�veloppement nuage de moteur d'acc�l�ration AI, est le premier moteur d'acc�l�ration acc�l�rer unifi�e de l'industrie tensorflow, PyTorch, MxNet, Caffe, Kaldi autre cadre informatique grand public de l'IA, y compris le moteur d'acc�l�ration de la formation AIACC-formation et les moteurs d'acc�l�ration de raisonnement AIACC-Inference.

moteur d'acc�l�ration de formation pour l'optimisation des performances de r�seau distribu� fait, peut faire jouer pleinement la capacit� des r�seaux de communication distribu�s, d'acc�l�rer le moteur d'inf�rence pour les services de cloud Ali nuage informatique h�t�rog�ne (y compris les services de cloud computing GPU et services cloud NPU) fait une profondeur cibl�e l'optimisation des performances, peut pr�senter des dispositifs informatiques h�t�rog�nes acc�l�r�.

Pour exemple NVidia GPU, il est actuellement le plus rapide du moteur d'inf�rence de l'industrie est TensorRT, et les performances de calcul AIACC-Inference peut �galement obtenir 1,5 � 2,5 fois la performance que TensorRT speedup.

Han Guang 800 recherche Alibaba AI depuis la premi�re puce, est la performance globale la plus forte des puces de raisonnement AI, principalement utilis�s dans les nuages sc�nario de traitement visuel, les performances de la puce AI briser le record existant, la performance et l'efficacit� �nerg�tique dans le monde.

Dans ResNet-50 industrie test standard, la performance d'inf�rence � la lumi�re contenant 80078563 IPS, 4 fois plus �lev� que le secteur actuel meilleur rendement de la puce AI; EER 500 IPS / W, le second est de 3,3 fois, et AIACC- Inference peut �tre suffisamment volatile Han Guang 800 puissance de calcul ultra-haute, qui est le mod�le d'optimisation logiciel ultime et l'int�gration du mat�riel performances nuage Ali.

Ali services cloud computing cloud GPU h�t�rog�ne, FPGA, NPU et d'autres l'int�gration de dispositif informatique h�t�rog�ne, le service par le biais de services de cloud computing pour offrir aux clients l'informatique h�t�rog�ne.

Avec la mont�e de la vague de l'intelligence artificielle, un nombre croissant de calculs IA en utilisant l'informatique h�t�rog�ne pour obtenir des performances accrues, et h�t�rog�nes services cloud computing Ali, construit sur les instances de nuage acc�l�rent la base la plus riche, par l'op�rateur AIACC la force de levage, pour le Pratt & Whitney AI fournir une acc�l�ration, et le bout des doigts du nuage �lastique de calcul services informatiques.

Actualiser IMAGEnet des dossiers de formation ResNet50

Dans le domaine de la reconnaissance d'image, le plus repr�sentatif de la sc�ne est dans la formation ResNet50 le IMAGEnet.

La derni�re sur la liste, AIACC-formation pour devenir performance mondiale et les co�ts dans ce sc�nario, le premier double entr�e, montrant en m�me temps dans le domaine de AIACC de formation distribu� le niveau international avanc�, peut aider les clients � am�liorer la performance de r�duire la formation requise co�t de calcul.

Liste de performance la formation d'un nouveau record du monde, en cours d'ex�cution 128 V100 ci-dessus (16 h�t�rog�nes des instances de services cloud computing ecs.gn6e-c12g1.24xlarge) les communications r�seau de cluster 32g VPC, la formation ResNet50 � la pr�cision de TOP5 de 93% le temps �tait de 2 minutes 38 secondes.

La taille de cluster pr�c�dent record du monde est utilis� 128 V100, par rapport r�seau de communications r�seau InfiniBand 100G, est-ce le record du monde trois fois la bande passante de 32G VPC. services cloud computing g�n�ralement configur� pour Heterogeneous la bande passante r�seau 32Gbps r�seau VPC, plus proche des sc�narios de l'utilisateur final, Ali a choisi le r�seau VPC.

�cart �norme sur le r�seau et la bande passante r�seau physique ancien record du monde 32G VPC est un d�fi majeur pour l'�quipe, nous avons fait une optimisation pouss�e de deux directions principales:

La premi�re direction est de l'optimisation du mod�le lui-m�me, et l'optimiseur de r�glage des param�tres super am�lior�, ce qui r�duit le nombre d'it�rations atteint 93% des cas o� la pr�cision requise, tout en essayant d'am�liorer les performances de stand-alone.

La deuxi�me direction est distribu�e l'optimisation des performances, nous utilisons �quipe de recherche de vol moteur d'acc�l�ration AI AIACC-formation (anciennement Ali-Pers�e-formation) comme une biblioth�que de communication distribu�e, exploiter pleinement le potentiel de 32G VPC.

Optimiser les deux derni�res directions extr�mes superpos�es, au-del� de la port�e d'une performance de barri�re apparemment impossible, bande passante r�seau, la cr�ation d'un nouveau record du monde.

En m�me temps, en raison de la complexit� du d�ploiement distribu� lui-m�me la formation, afin d'am�liorer l'efficacit�, mais aussi pour la commodit� des utilisateurs externes de reproduire les r�sultats, Ali �quipe FastGPU utilis� les outils imm�diatement construit avant le d�veloppement de la formation sera cr�� et distribu� � tous le cluster de planification la fa�on dont le script est termin�, peut �tre une cl� de d�marrage, d'acc�l�rer consid�rablement l'optimisation de l'efficacit�.

� l'avenir, nous serons bas�s sur AIACC open source le code de r�f�rence pour faciliter aux utilisateurs externes reproduisent les r�sultats d'une cl�.

Ces derni�res ann�es, le d�veloppement rapide du domaine de la formation distribu�e, il y a un large choix de solutions pour tensorflow, le cadre lui-m�me supporte le mode PS et distribu� des communications Anneau style allreduce, soutien de tiers a Horovod.

Pour la formation ResNet50 distribu�, programme open-source Horovod est encore relativement solution optimale, donc � Horovod Ali comme base de comparaison.

logigramme formation r�partis comme indiqu� ci-dessous:

Les calcul de minimum noeuds comme une seule carte GPU, chaque noeud de calcul sont divis�es en un ensemble de donn�es centralis�e de l'ensemble des donn�es que le noeud de donn�es d'apprentissage, et ensuite, avant le d�but du calcul vers l'arri�re et, � la fin du lot en cours seront calcul�s apr�s g�n�r� gradient.

Ensuite, avant les param�tres de mise � jour, les besoins de gradient de communiquer � travers le cluster. API Horovod est mis � jour avant que le gradient, � un optimiseur d'�coulement est ins�r�e dans cette partie de la p�riode de communication entre plusieurs nuds.

AIACC-formation

AIACC-formation est Ali va la formation d'auto-d�veloppement de l'apprentissage profond moteur distribu� de communication, soutien unifi� tensorflow, PyTorch, MxNet et Caffe, de IaaS pour fournir le niveau d'int�gration peut �tre acc�l�r�e et d'une biblioth�que open source compatible.

Il existe d�j� un certain nombre d'AI et le d�ploiement d'un grand nombre de clients Internet utiliser dans un environnement de production, d'am�liorer de mani�re significative les produits informatiques h�t�rog�nes rentables, offrant aux clients des services informatiques diff�renci�s d'une couche d'architecture logicielle comme illustr� ci-dessous.

AIACC-formation comme le back-end distribu� enregistrement Dawnbench, a jou� un r�le crucial. Voici notre distribution derri�re AIACC-formation optimis�e pour une analyse d�taill�e.

consultation gradient D�centralis�

La cl� est de savoir comment optimiser les performances de cette efficacit� distribu�e de liaison de communication pour ResNet50, nous avons besoin de communiquer des donn�es de gradient, il est environ 170, alors que le montant total du trafic est d'environ 50 Mo.

G�n�ration de synchronisation de ces gradients d�pend de leur position respective dans le calcul de la figure, les d�pendances FIG section de calcul d�termine la pente de cette partie du gradient est calcul� dans l'ordre chronologique.

Est compl�tement d�pendante de l'op�rateur par rapport � l'autre dans le graphe de calcul, ils ont un certain caract�re al�atoire dans le moment de l'apparition de chaque calcul. Le premier probl�me dans la communication entre des noeuds multiples � r�soudre est la n�cessit� de n�gocier gradient s�quentiel synchrone.

Proc�d� Horovod est utilis� dans le noeud 0 comme le centre, le noeud courant sont d�termin�s sur toutes les communications peer de gradient pr�t � tous les autres noeuds, et ensuite d�terminer comment communiquer ces gradients alors pr�t noeud 0, et enfin le point de la politique de communication du point envoy� � tous les autres noeuds, apr�s le d�but de la communication multi-machine conform�ment � la strat�gie de communication.

Strat�gies de n�gociation ce point, dans 128 noeuds de noeud 0, ce qui entra�ne un point chaud local, ont besoin de communiquer 256 fois. AIACC-formation a abandonn� le mode de n�gociation de ce nud central, au profit d'une mani�re d�centralis�e n�goci�e entre les 128 noeuds, 128 noeuds car la distribution r�elle dans 16 cas, notre optimisation peut facilement reconna�tre 256 esp�ces topologie ne produit plus les points chauds sur la seule carte GPU de communication secondaire.

Consid�rant que la plupart du temps qu'un gradient pr�t, cette optimisation peut �galement �tre effectu�e simultan�ment sur la pluralit� de n�gociation gradient, de sorte que le montant r�el de r�duction du trafic n�goci� d'environ un ordre de grandeur.

� grains fins fusion gradient

Apr�s gradient de consultation, tous les noeuds sont conscients du gradient de courant peut communiquer ce moment, le prochain un probl�me d'optimisation face est que nous devons communiquer � la fois apr�s avoir recueilli gradient � un nombre quelconque de gradients, ou s�lectionnez un plus combinaison optimale communication.

Voici une conclusion d�terministe est qu'une seule communication de gradient individuel, l'efficacit� de la communication est toujours tr�s faible, nous avons besoin d'une pluralit� de gradient de fusion, puis � une taille de particules sup�rieure fusionn�e � communiquer.

AIACC-formation de la strat�gie d'int�gration � grains fins, nous allons analyser dynamiquement l'�tat actuel de la communication dans la liaison de communication puis s�lectionnez une strat�gie d'int�gration plus �quilibr�e, pour �viter trop de diff�rence.

Cela rendra aussi uniforme que possible une taille de particules pour chaque communication, ce qui r�duit la volatilit� peut se produire. En raison de cette strat�gie d'int�gration, il existe diff�rentes valeurs optimales pour les diff�rents mod�les de r�seau, donc ils ont r�alis� la fonction d'optimisation automatique ajuste dynamiquement ce param�tre pour trouver l'int�gration optimale de granularit�.

Asynchronous communication multi-flux

Les biblioth�ques de communication sous-jacentes ou l'utilisation de NCCL pour la communication de donn�es entre le GPU, le mod�le de programmation NCCL prend en charge qu'une communication de flux de communication unique et l'efficacit� d'un flux de communication unique est tr�s faible, capacit� de transmission unique flux est souvent limit� � environ 10G points de base .

AIACC-formation � partir d'un moteur de niveau sup�rieur pour supporter les ruisseaux communication multiples est attribu� � plus d'un service de communication de gradient de flux de communication dans chacun de l'�coulement d'un gradient de d�coupage en tranches de fusion, et la fusion des particules de d�coupage ult�rieur ne d�pend pas fusion du gradient de segmentation courante.

Par cons�quent, m�me si la communication entre le multi-flux est une op�ration enti�rement asynchrone, m�me si la vitesse entre le multi-flux n'est pas �quilibr�, il ne sera pas s�rieusement affecter l'efficacit� globale de l'�chelle de temps, afin de mieux maintenir l'utilisation de la bande passante r�seau optimale .

Et l'int�gration de la m�me taille, le nombre de segmentation du flux, et un mod�le aussi la formation, ainsi que la bande passante actuelle du r�seau r�el, il existe une forte corr�lation, et ne peut donc pas �mettre un r�glage optimal.

Nous avons con�u un m�canisme de r�glage automatique, le nombre de flux de liaisons de communication comprend le r�glage automatique, la taille des particules et le nombre de segmentation de fusion des flux, le joint sera accorder automatiquement la meilleure combinaison de param�tres.

mod�le d'optimisation

l'optimisation de niveau algorithme peut �tre divis� en quatre aspects de donn�es, mod�les et optimiseur hyperparametric.

Les donn�es, nous avons adopt� une image multi-r�solution de la formation progressive. La pr�cision des pertes caus�es par l'utilisation de diff�rentes dimensions de cette mani�re ne peut pas utiliser seulement de petites images de r�solution avant et apr�s le d�but d'am�liorer grandement la vitesse de calcul, mais aussi d'affaiblir la formation et le raisonnement.

Sur le mod�le, nous avons absorb� l'avantage de quelques variantes de r�seau r�centes, toujours selon certaines �tudes r�centes effectu�es sur l'ajustement BatchNorm faible.

ce qui concerne Hyperparametric, nous avons fait beaucoup de choses � explorer, comme le taux de d�croissance de la mani�re de l'apprentissage, nous ne pourrissent pas utiliser �tape tr�s populaire ou la carie cosinus, au lieu d'utiliser une d�croissance lin�aire plus directe, en plus, nous avons �galement constat� que tr�s peu d'�tapes warm-up importante.

L'optimiseur, nous avons modifi� le programme d'optimisation, tout en absorbant l'avantage de SGD de g�n�ralisation et optimiseur adaptatif convergence rapide, de sorte que la vitesse du train optimiseur am�lior�e plus rapide et une plus grande pr�cision.

Sur la base des travaux d'optimisation ci-dessus, nous avons termin� dans le prochain 28 total �poque de 1159 it�rations de formation et d'atteindre 93% TOP5 de pr�cision, alors que la formation initiale que vous avez besoin de 90 pour atteindre �poque la m�me pr�cision.

R�sultats de la performance

La combinaison de toutes l'optimisation de la performance ci-dessus, nous sommes sur la carte 128 V100, atteint 158 secondes pour obtenir TOP5 pr�cision de 93%, la cr�ation d'un nouveau record du monde.

enregistrement Actualiser performance de raisonnement: plus de cinq fois plus vite que la deuxi�me place

Dans le projet de raisonnement, la concurrence exige DawnBench cadre raisonnement pour classer l'image 10000 image ensemble de validation de IMAGEnet, la pr�cision de la classification TOP5 du mod�le ne soit pas inf�rieur � 93%.

Dans la configuration de la taille du lot = 1, calculer le temps moyen par image le raisonnement et le co�t moyen. Dans une performance enregistr�e, le temps d'inf�rence moyen inf�rieur � 1ms, a largement d�pass� la vitesse de r�ponse de la vision humaine.

La derni�re sur la liste, en fonction de notre h�t�rog�ne informatique AliNPU instance de service cloud (de ecs.ebman1.26xlarge) a remport� le premier prix de la performance raisonnement du projet, plus de cinq fois plus rapide que la seconde.

En m�me temps, le co�t du raisonnement pr�sent� ant�rieurement les premiers r�sultats (GPU bas�e sur les instances de services de cloud computing h�t�rog�nes-c8g1.2xlarge) Personne ne au-del�, et sont donc au premier rang en termes de performance et le co�t des deux projets.

AIACC-Inference

Dans le processus de service � la client�le et continuer � l'impact DawnBench d'abord, nous sommes constamment des techniques d'optimisation raisonnement poli sc�ne h�t�rog�ne service informatique, et en fonction des besoins r�els des clients ont d�velopp� le moteur d'acc�l�ration mod�le AIACC-Inference pour aider les clients � r�soudre cadre mainstream AI cadre de mod�le tensorflow, PyTorch, MXNet, Kaldi et d'autres probl�mes d'optimisation.

Proc�d� d'optimisation de la figure comprend le calcul d'une analyse de mod�le, dans lequel les noeuds de calcul sont fusionn�s, pour r�duire le nombre de noeuds dans le calcul du mod�le, afin d'am�liorer l'efficacit� du calcul de la Fig.

Tout en fournissant des options d'optimisation du mod�le FP32 et FP16 et pr�cision Int8, les mod�les d'optimisation peuvent �tre g�n�r�s dans une vari�t� de pr�cision, FP16 et la pr�cision Int8 du mod�le qui peut �tre utilis� support mat�riel de base Tensor dans l'architecture Volta NVIDIA et Turing pour am�liorer encore le mod�le raisonnement V100 , la performance sur la carte GPU T4.

� l'heure actuelle AIACC-Inference prend en charge la classification d'image commune et le mod�le de d�tection d'objet, et prend �galement en charge Bert, StyleGAN tel mod�le de la PNL et le mod�le de r�seau GAN.

De plus, nous avons optimis� le noyau de convolution 1x1,3x3,7x7 de profondeur, ajoute un nouveau m�canisme de fusion op dans AIACC-Inference, le ratio le plus rapide TensorRT �galement obtenir 1,5 � 2,5 fois l'acc�l�ration de la performance de l'industrie.

Mod�le d'optimisation et de cadre

Dans la version de la pr�sentation, nous baserons mod�le � un changement ResNet26d plus simple, la vague de premier plan des troubles.

Cette fois-ci, afin d'am�liorer encore la pr�cision du mod�le mod�le et Streamline, nous avons hyper-param�tres ont �t� ajust�s, l'introduction du mode d'am�lioration des donn�es suppl�mentaires. En utilisant le AugMix et la perte JSD combinaison superpos�e RandAugment sera la pr�cision du mod�le ResNet26d augment� � 93,3%, + 0,13% de gain de pr�cision des r�sultats.

Optimisation Han Guang 800 (AliNPU) sur la base

Nous AliNPU pour les caract�ristiques architecturales, le moteur d'inf�rence pour l'optimisation correspondante. Depuis AliNPU uint8 pour que le t�l�chargement et le t�l�chargement format de stockage de donn�es.

Par cons�quent, il doit �tre ins�r� dans le moteur avant et apr�s l'op�ration de quantification de quantification et inverse pour r�cup�rer les donn�es, cependant, et Quant Dequant ces op�rations sur la CPU, ne peut pas �tre utilis� AliNPU acc�l�r�, occupe une grande partie du temps d'inf�rence en effectuant le pr�traitement et post-traitement ces op�rations seront r�duites � un retard d'inf�rence de niveau est 0.117ms.

Compte tenu du mod�le de raisonnement que nous utilisons plus petit, conform�ment � l'exp�rience de la bande passante du GPU de 4 Go / s, les besoins de donn�es d'image d'entr�e � t�l�charger sur 147KB dans AliNPU prend 0.03ms. Par cons�quent, nous avons introduit dans le cadre du m�canisme de pr�-charge, les donn�es de pr�lecture dans AliNPU, le d�lai moyen est encore r�duit au raisonnement 0.0739ms.

- FIN -

Qubit QbitAI � titres sur contrat

Suivez-nous, la premi�re fois inform� l'avant-garde des d�veloppements scientifiques et technologiques

Route de la soie

Apprenez � conna�tre la Chine