Ali technologies publiques fondamentales: comment décoller quatre champions du monde, la performance raisonnant cinq fois plus rapide que la seconde

Wen | Ali nuage équipe informatique hétérogène Qubit produit | Numéro public QbitAI

Récemment, l'Université de Stanford DAWNBench IMAGEnet derniers résultats annoncés, Ali que Google, Facebook, etc., de la liste des quatre premiers du monde.

128 cartes V100, la formation ResNet50, à seulement 158 secondes sera en mesure d'obtenir TOP5 précision de 93%.

Pour la classification d'image dans l'image 10000 ensemble de validation, la précision de TOP5 pas moins de 93%, plus de 5 fois la performance inférence plus rapide que la seconde.

On peut dire, que ce soit la performance de la formation et de coût, ou le raisonnement de la performance et de coût, reflète un logiciel d'optimisation de classe mondiale AI Ali performance ultime et la capacité d'intégration matérielle dans l'informatique hétérogène.

Ali est de savoir comment faire? Quatre gagnant - Ali nuage équipe hétérogène technologie informatique partagé le secret derrière.

C'est ce genre de résultats?

Stanford DAWNBench, est un modèle de formation d'apprentissage approfondi de la fin et la plate-forme d'analyse comparative des performances de raisonnement, publié par l'Université de Stanford en 2017 sur la conférence SPNI, après avoir obtenu un large soutien de l'industrie.

Google, Facebook VMWARE et d'autres sociétés de renommée mondiale se sont joints. DAWNBench est devenu le plus influent domaine de l'intelligence artificielle, l'un des plus liste de classement faisant autorité.

Pour les calculs AI, l'indicateur deux plus importants est la performance et le coût. Après les derniers résultats annoncés, montre Ali nuage intégré matériel et des logiciels dans le domaine de la formation et le raisonnement des capacités d'optimisation des performances de classe mondiale.

Ali nuage accéléré équipe informatique hétérogène AI a déclaré que le plus important que l'arme Ali nuage volant de la recherche en IA moteurs accéléré AIACC, Ali nuage puces auto-développés Hanguangmen 800 (appelé AliNPU) et hétérogènes Le cloud computing Ali services cloud.

AIACC Ali auto-développement nuage de moteur d'accélération AI, est le premier moteur d'accélération accélérer unifiée de l'industrie tensorflow, PyTorch, MxNet, Caffe, Kaldi autre cadre informatique grand public de l'IA, y compris le moteur d'accélération de la formation AIACC-formation et les moteurs d'accélération de raisonnement AIACC-Inference.

moteur d'accélération de formation pour l'optimisation des performances de réseau distribué fait, peut faire jouer pleinement la capacité des réseaux de communication distribués, d'accélérer le moteur d'inférence pour les services de cloud Ali nuage informatique hétérogène (y compris les services de cloud computing GPU et services cloud NPU) fait une profondeur ciblée l'optimisation des performances, peut présenter des dispositifs informatiques hétérogènes accéléré.

Pour exemple NVidia GPU, il est actuellement le plus rapide du moteur d'inférence de l'industrie est TensorRT, et les performances de calcul AIACC-Inference peut également obtenir 1,5 à 2,5 fois la performance que TensorRT speedup.

Han Guang 800 recherche Alibaba AI depuis la première puce, est la performance globale la plus forte des puces de raisonnement AI, principalement utilisés dans les nuages scénario de traitement visuel, les performances de la puce AI briser le record existant, la performance et l'efficacité énergétique dans le monde.

Dans ResNet-50 industrie test standard, la performance d'inférence à la lumière contenant 80078563 IPS, 4 fois plus élevé que le secteur actuel meilleur rendement de la puce AI; EER 500 IPS / W, le second est de 3,3 fois, et AIACC- Inference peut être suffisamment volatile Han Guang 800 puissance de calcul ultra-haute, qui est le modèle d'optimisation logiciel ultime et l'intégration du matériel performances nuage Ali.

Ali services cloud computing cloud GPU hétérogène, FPGA, NPU et d'autres l'intégration de dispositif informatique hétérogène, le service par le biais de services de cloud computing pour offrir aux clients l'informatique hétérogène.

Avec la montée de la vague de l'intelligence artificielle, un nombre croissant de calculs IA en utilisant l'informatique hétérogène pour obtenir des performances accrues, et hétérogènes services cloud computing Ali, construit sur les instances de nuage accélèrent la base la plus riche, par l'opérateur AIACC la force de levage, pour le Pratt & Whitney AI fournir une accélération, et le bout des doigts du nuage élastique de calcul services informatiques.

Actualiser IMAGEnet des dossiers de formation ResNet50

Dans le domaine de la reconnaissance d'image, le plus représentatif de la scène est dans la formation ResNet50 le IMAGEnet.

La dernière sur la liste, AIACC-formation pour devenir performance mondiale et les coûts dans ce scénario, le premier double entrée, montrant en même temps dans le domaine de AIACC de formation distribué le niveau international avancé, peut aider les clients à améliorer la performance de réduire la formation requise coût de calcul.

Liste de performance la formation d'un nouveau record du monde, en cours d'exécution 128 V100 ci-dessus (16 hétérogènes des instances de services cloud computing ecs.gn6e-c12g1.24xlarge) les communications réseau de cluster 32g VPC, la formation ResNet50 à la précision de TOP5 de 93% le temps était de 2 minutes 38 secondes.

La taille de cluster précédent record du monde est utilisé 128 V100, par rapport réseau de communications réseau InfiniBand 100G, est-ce le record du monde trois fois la bande passante de 32G VPC. services cloud computing généralement configuré pour Heterogeneous la bande passante réseau 32Gbps réseau VPC, plus proche des scénarios de l'utilisateur final, Ali a choisi le réseau VPC.

écart énorme sur le réseau et la bande passante réseau physique ancien record du monde 32G VPC est un défi majeur pour l'équipe, nous avons fait une optimisation poussée de deux directions principales:

La première direction est de l'optimisation du modèle lui-même, et l'optimiseur de réglage des paramètres super amélioré, ce qui réduit le nombre d'itérations atteint 93% des cas où la précision requise, tout en essayant d'améliorer les performances de stand-alone.

La deuxième direction est distribuée l'optimisation des performances, nous utilisons équipe de recherche de vol moteur d'accélération AI AIACC-formation (anciennement Ali-Persée-formation) comme une bibliothèque de communication distribuée, exploiter pleinement le potentiel de 32G VPC.

Optimiser les deux dernières directions extrêmes superposées, au-delà de la portée d'une performance de barrière apparemment impossible, bande passante réseau, la création d'un nouveau record du monde.

En même temps, en raison de la complexité du déploiement distribué lui-même la formation, afin d'améliorer l'efficacité, mais aussi pour la commodité des utilisateurs externes de reproduire les résultats, Ali équipe FastGPU utilisé les outils immédiatement construit avant le développement de la formation sera créé et distribué à tous le cluster de planification la façon dont le script est terminé, peut être une clé de démarrage, d'accélérer considérablement l'optimisation de l'efficacité.

À l'avenir, nous serons basés sur AIACC open source le code de référence pour faciliter aux utilisateurs externes reproduisent les résultats d'une clé.

Ces dernières années, le développement rapide du domaine de la formation distribuée, il y a un large choix de solutions pour tensorflow, le cadre lui-même supporte le mode PS et distribué des communications Anneau style allreduce, soutien de tiers a Horovod.

Pour la formation ResNet50 distribué, programme open-source Horovod est encore relativement solution optimale, donc à Horovod Ali comme base de comparaison.

logigramme formation répartis comme indiqué ci-dessous:

Les calcul de minimum noeuds comme une seule carte GPU, chaque noeud de calcul sont divisées en un ensemble de données centralisée de l'ensemble des données que le noeud de données d'apprentissage, et ensuite, avant le début du calcul vers l'arrière et, à la fin du lot en cours seront calculés après généré gradient.

Ensuite, avant les paramètres de mise à jour, les besoins de gradient de communiquer à travers le cluster. API Horovod est mis à jour avant que le gradient, à un optimiseur d'écoulement est insérée dans cette partie de la période de communication entre plusieurs nuds.

AIACC-formation

AIACC-formation est Ali va la formation d'auto-développement de l'apprentissage profond moteur distribué de communication, soutien unifié tensorflow, PyTorch, MxNet et Caffe, de IaaS pour fournir le niveau d'intégration peut être accélérée et d'une bibliothèque open source compatible.

Il existe déjà un certain nombre d'AI et le déploiement d'un grand nombre de clients Internet utiliser dans un environnement de production, d'améliorer de manière significative les produits informatiques hétérogènes rentables, offrant aux clients des services informatiques différenciés d'une couche d'architecture logicielle comme illustré ci-dessous.

AIACC-formation comme le back-end distribué enregistrement Dawnbench, a joué un rôle crucial. Voici notre distribution derrière AIACC-formation optimisée pour une analyse détaillée.

consultation gradient Décentralisé

La clé est de savoir comment optimiser les performances de cette efficacité distribuée de liaison de communication pour ResNet50, nous avons besoin de communiquer des données de gradient, il est environ 170, alors que le montant total du trafic est d'environ 50 Mo.

Génération de synchronisation de ces gradients dépend de leur position respective dans le calcul de la figure, les dépendances FIG section de calcul détermine la pente de cette partie du gradient est calculé dans l'ordre chronologique.

Est complètement dépendante de l'opérateur par rapport à l'autre dans le graphe de calcul, ils ont un certain caractère aléatoire dans le moment de l'apparition de chaque calcul. Le premier problème dans la communication entre des noeuds multiples à résoudre est la nécessité de négocier gradient séquentiel synchrone.

Procédé Horovod est utilisé dans le noeud 0 comme le centre, le noeud courant sont déterminés sur toutes les communications peer de gradient prêt à tous les autres noeuds, et ensuite déterminer comment communiquer ces gradients alors prêt noeud 0, et enfin le point de la politique de communication du point envoyé à tous les autres noeuds, après le début de la communication multi-machine conformément à la stratégie de communication.

Stratégies de négociation ce point, dans 128 noeuds de noeud 0, ce qui entraîne un point chaud local, ont besoin de communiquer 256 fois. AIACC-formation a abandonné le mode de négociation de ce nud central, au profit d'une manière décentralisée négociée entre les 128 noeuds, 128 noeuds car la distribution réelle dans 16 cas, notre optimisation peut facilement reconnaître 256 espèces topologie ne produit plus les points chauds sur la seule carte GPU de communication secondaire.

Considérant que la plupart du temps qu'un gradient prêt, cette optimisation peut également être effectuée simultanément sur la pluralité de négociation gradient, de sorte que le montant réel de réduction du trafic négocié d'environ un ordre de grandeur.

À grains fins fusion gradient

Après gradient de consultation, tous les noeuds sont conscients du gradient de courant peut communiquer ce moment, le prochain un problème d'optimisation face est que nous devons communiquer à la fois après avoir recueilli gradient à un nombre quelconque de gradients, ou sélectionnez un plus combinaison optimale communication.

Voici une conclusion déterministe est qu'une seule communication de gradient individuel, l'efficacité de la communication est toujours très faible, nous avons besoin d'une pluralité de gradient de fusion, puis à une taille de particules supérieure fusionnée à communiquer.

AIACC-formation de la stratégie d'intégration à grains fins, nous allons analyser dynamiquement l'état actuel de la communication dans la liaison de communication puis sélectionnez une stratégie d'intégration plus équilibrée, pour éviter trop de différence.

Cela rendra aussi uniforme que possible une taille de particules pour chaque communication, ce qui réduit la volatilité peut se produire. En raison de cette stratégie d'intégration, il existe différentes valeurs optimales pour les différents modèles de réseau, donc ils ont réalisé la fonction d'optimisation automatique ajuste dynamiquement ce paramètre pour trouver l'intégration optimale de granularité.

Asynchronous communication multi-flux

Les bibliothèques de communication sous-jacentes ou l'utilisation de NCCL pour la communication de données entre le GPU, le modèle de programmation NCCL prend en charge qu'une communication de flux de communication unique et l'efficacité d'un flux de communication unique est très faible, capacité de transmission unique flux est souvent limité à environ 10G points de base .

AIACC-formation à partir d'un moteur de niveau supérieur pour supporter les ruisseaux communication multiples est attribué à plus d'un service de communication de gradient de flux de communication dans chacun de l'écoulement d'un gradient de découpage en tranches de fusion, et la fusion des particules de découpage ultérieur ne dépend pas fusion du gradient de segmentation courante.

Par conséquent, même si la communication entre le multi-flux est une opération entièrement asynchrone, même si la vitesse entre le multi-flux n'est pas équilibré, il ne sera pas sérieusement affecter l'efficacité globale de l'échelle de temps, afin de mieux maintenir l'utilisation de la bande passante réseau optimale .

Et l'intégration de la même taille, le nombre de segmentation du flux, et un modèle aussi la formation, ainsi que la bande passante actuelle du réseau réel, il existe une forte corrélation, et ne peut donc pas émettre un réglage optimal.

Nous avons conçu un mécanisme de réglage automatique, le nombre de flux de liaisons de communication comprend le réglage automatique, la taille des particules et le nombre de segmentation de fusion des flux, le joint sera accorder automatiquement la meilleure combinaison de paramètres.

modèle d'optimisation

l'optimisation de niveau algorithme peut être divisé en quatre aspects de données, modèles et optimiseur hyperparametric.

Les données, nous avons adopté une image multi-résolution de la formation progressive. La précision des pertes causées par l'utilisation de différentes dimensions de cette manière ne peut pas utiliser seulement de petites images de résolution avant et après le début d'améliorer grandement la vitesse de calcul, mais aussi d'affaiblir la formation et le raisonnement.

Sur le modèle, nous avons absorbé l'avantage de quelques variantes de réseau récentes, toujours selon certaines études récentes effectuées sur l'ajustement BatchNorm faible.

ce qui concerne Hyperparametric, nous avons fait beaucoup de choses à explorer, comme le taux de décroissance de la manière de l'apprentissage, nous ne pourrissent pas utiliser étape très populaire ou la carie cosinus, au lieu d'utiliser une décroissance linéaire plus directe, en plus, nous avons également constaté que très peu d'étapes warm-up importante.

L'optimiseur, nous avons modifié le programme d'optimisation, tout en absorbant l'avantage de SGD de généralisation et optimiseur adaptatif convergence rapide, de sorte que la vitesse du train optimiseur améliorée plus rapide et une plus grande précision.

Sur la base des travaux d'optimisation ci-dessus, nous avons terminé dans le prochain 28 total époque de 1159 itérations de formation et d'atteindre 93% TOP5 de précision, alors que la formation initiale que vous avez besoin de 90 pour atteindre époque la même précision.

Résultats de la performance

La combinaison de toutes l'optimisation de la performance ci-dessus, nous sommes sur la carte 128 V100, atteint 158 secondes pour obtenir TOP5 précision de 93%, la création d'un nouveau record du monde.

enregistrement Actualiser performance de raisonnement: plus de cinq fois plus vite que la deuxième place

Dans le projet de raisonnement, la concurrence exige DawnBench cadre raisonnement pour classer l'image 10000 image ensemble de validation de IMAGEnet, la précision de la classification TOP5 du modèle ne soit pas inférieur à 93%.

Dans la configuration de la taille du lot = 1, calculer le temps moyen par image le raisonnement et le coût moyen. Dans une performance enregistrée, le temps d'inférence moyen inférieur à 1ms, a largement dépassé la vitesse de réponse de la vision humaine.

La dernière sur la liste, en fonction de notre hétérogène informatique AliNPU instance de service cloud (de ecs.ebman1.26xlarge) a remporté le premier prix de la performance raisonnement du projet, plus de cinq fois plus rapide que la seconde.

En même temps, le coût du raisonnement présenté antérieurement les premiers résultats (GPU basée sur les instances de services de cloud computing hétérogènes-c8g1.2xlarge) Personne ne au-delà, et sont donc au premier rang en termes de performance et le coût des deux projets.

AIACC-Inference

Dans le processus de service à la clientèle et continuer à l'impact DawnBench d'abord, nous sommes constamment des techniques d'optimisation raisonnement poli scène hétérogène service informatique, et en fonction des besoins réels des clients ont développé le moteur d'accélération modèle AIACC-Inference pour aider les clients à résoudre cadre mainstream AI cadre de modèle tensorflow, PyTorch, MXNet, Kaldi et d'autres problèmes d'optimisation.

Procédé d'optimisation de la figure comprend le calcul d'une analyse de modèle, dans lequel les noeuds de calcul sont fusionnés, pour réduire le nombre de noeuds dans le calcul du modèle, afin d'améliorer l'efficacité du calcul de la Fig.

Tout en fournissant des options d'optimisation du modèle FP32 et FP16 et précision Int8, les modèles d'optimisation peuvent être générés dans une variété de précision, FP16 et la précision Int8 du modèle qui peut être utilisé support matériel de base Tensor dans l'architecture Volta NVIDIA et Turing pour améliorer encore le modèle raisonnement V100 , la performance sur la carte GPU T4.

À l'heure actuelle AIACC-Inference prend en charge la classification d'image commune et le modèle de détection d'objet, et prend également en charge Bert, StyleGAN tel modèle de la PNL et le modèle de réseau GAN.

De plus, nous avons optimisé le noyau de convolution 1x1,3x3,7x7 de profondeur, ajoute un nouveau mécanisme de fusion op dans AIACC-Inference, le ratio le plus rapide TensorRT également obtenir 1,5 à 2,5 fois l'accélération de la performance de l'industrie.

Modèle d'optimisation et de cadre

Dans la version de la présentation, nous baserons modèle à un changement ResNet26d plus simple, la vague de premier plan des troubles.

Cette fois-ci, afin d'améliorer encore la précision du modèle modèle et Streamline, nous avons hyper-paramètres ont été ajustés, l'introduction du mode d'amélioration des données supplémentaires. En utilisant le AugMix et la perte JSD combinaison superposée RandAugment sera la précision du modèle ResNet26d augmenté à 93,3%, + 0,13% de gain de précision des résultats.

Optimisation Han Guang 800 (AliNPU) sur la base

Nous AliNPU pour les caractéristiques architecturales, le moteur d'inférence pour l'optimisation correspondante. Depuis AliNPU uint8 pour que le téléchargement et le téléchargement format de stockage de données.

Par conséquent, il doit être inséré dans le moteur avant et après l'opération de quantification de quantification et inverse pour récupérer les données, cependant, et Quant Dequant ces opérations sur la CPU, ne peut pas être utilisé AliNPU accéléré, occupe une grande partie du temps d'inférence en effectuant le prétraitement et post-traitement ces opérations seront réduites à un retard d'inférence de niveau est 0.117ms.

Compte tenu du modèle de raisonnement que nous utilisons plus petit, conformément à l'expérience de la bande passante du GPU de 4 Go / s, les besoins de données d'image d'entrée à télécharger sur 147KB dans AliNPU prend 0.03ms. Par conséquent, nous avons introduit dans le cadre du mécanisme de pré-charge, les données de prélecture dans AliNPU, le délai moyen est encore réduit au raisonnement 0.0739ms.

- FIN -

Qubit QbitAI · titres sur contrat

Suivez-nous, la première fois informé l'avant-garde des développements scientifiques et technologiques

« Pourquoi je suis contre les papiers AI forcé open source »
Précédent
Les premiers résultats cliniques de l'Ouest Wei Reid: 2/3 sévère à améliorer, se débarrasser de plus de la moitié du ventilateur
Prochain
Utilisez le « retour iPhone » suivi de nouveaux contacts de la couronne, Google a fait équipe d'Apple
Peut détour, Detour sera jeu open source AI: résoudre le monstre a frappé le mur carte morte
La langue ancienne du feu récent, le code de fermier âgé de 80 ans de réemploi dans le code « Terminator » il est également
ère AI pour la « puissance », que les fabricants doivent investir une centaine de millions de yuans à l'atterrissage à l'industrie, AI
iPad changement Pro outil de productivité, il vous manque encore un éditeur de code léger côté navigateur
AutoX construire des véhicules sans pilote fonctionnent grands centres de données, situé à Shanghai Jiading, Hao cher
Nouveau cerveau Google recherche: une rencontre des goulets d'étranglement d'apprentissage de renforcement monotâche? pot « Catastrophique oublier »!
Vidéoconférence vieux distrait? Essayez VR rencontrer expérience immersive! Cloud réunion peut embrasser, selfie
Lutte contre la pauvreté: Village Hull
Henan élèves de troisième année à l'école pour reprendre les cours
« Économie chinoise Illustrated » a continué à forcer la politique constante de l'emploi: sauvegarde résolument « la plus grande des moyens de subsistance du peuple ».
Choqué! Les prix de l'immobilier entourant directement après Mme Wang pat du sol! La dernière occasion possible juste d'être ici ..