Soutien de dix millions de technologie de classification à l'échelle, Baidu mouche cadre de l'apprentissage en profondeur industrielle palette définie

2016, AlphaGo tourné, ère de l'intelligence artificielle. Dans la même année, Baidu ouvrir cadre d'apprentissage profond PaddlePaddle de meulage (pagaie mouche), devenant ainsi la première open source de la Chine cadre d'apprentissage profond.

Cependant, cette vague entraînée par la profondeur de la vague de l'industrie de l'apprentissage et de la technologie, est également confronté à de nombreux défis.

L'augmentation de la quantité de données, une partie du modèle de données de formation dans les centaines de tuberculose, modèle plus profond, plus complexe, de 8 AlexNet couche, la couche ResNet-1000 aux 1202 de, de plus en plus les paramètres du modèle, plus encore que 10 cent millions ......

efficacité de la formation du modèle d'apprentissage profondeur est devenu une question clé.

Parce que l'effet de la profondeur du modèle d'apprentissage itératif est très sensible à la vitesse de la formation, il est possible d'apporter une formation distribuée haute performance du cadre de l'apprentissage en profondeur juste besoin le développement réel et de l'application, ainsi que base AI dans l'industrie peut vraiment l'atterrissage.

Le même nombre de périphériques matériels, la formation distribuée à haute efficacité, peut réduire considérablement les itérations de ce produit. Et dans les délais limités, très efficaces outils plate-forme peuvent réduire considérablement les besoins en matériel.

En Chine La première et la seule open source ouverte, la plate-forme d'apprentissage en profondeur entièrement fonctionnel . Après des années de pratique de l'industrie, Baidu voler pagaie est devenu le cadre de base, des outils, des composants et des services plate-forme pour l'intégration de bout en open source profondeur de la plate-forme d'apprentissage, l'hélice à la mouche à grande échelle la capacité de formation distribuée a toujours été un point fort importante.

AI Developers Conference plate-forme technologique d'apprentissage Baidu Ma Yanjun, directeur de profondeur RPSC tenue une fois, la « mouche supports paddle dense et scène paramètres paramètres clairsemées de grande parallèle à grande échelle de formation d'apprentissage en profondeur, le soutien billion ou encore plus élevé pour des paramètres d'échelle de grandeur efficace la formation parallèle, mais aussi le premier à fournir une telle puissante étude approfondie technique parallèle de la plate-forme d'apprentissage en profondeur, pour atteindre efficace, stable, faible coût grâce à l'innovation technologique ».

Véritable échelle de qualité industrielle: 100 milliards caractéristique clairsemée, faire l'échelle de classification

Pour réduire la application à grande échelle du seuil de classification des développeurs normaux du modèle d'apprentissage en profondeur, aux développeurs plus d'améliorer les performances des applications de recommandation personnalisée, vol paddle a lancé une nouvelle série de paramètres de serveur très simultanés pour la mise en uvre de la formation distribuée, et la libération une très grande bibliothèque de formation à l'échelle de classification PLSC, caractéristiques rares pour les développeurs d'aide à atteindre 100 milliards de train, ainsi que l'échelle de dix millions de catégories de classification.

100 milliards de fonction rares

100 milliards de caractéristiques rares: système de recommandation d'application dans les informations de produit orienté utilisateur final flux, vidéo courts, de plus en plus largement, et la recommandation personnalisée est un objectif important de poursuivre ces produits. Une façon personnalisée importante et efficace pour réaliser la méthode d'apprentissage en profondeur consiste à utiliser les fonctionnalités de personnalisation dans un modèle avec des capacités de généralisation massive de mémoire. Il a pour des centaines de millions d'utilisateurs de produits à la vie quotidienne, aussi longtemps que les caractéristiques de contenu des utilisateurs des ressources et des informations personnalisées graphiques et autres bundle simple, il est facile d'élargir l'échelle comporte des dizaines, voire cent milliards de niveau.

Afin de soutenir les fonctions ouvertes 100 milliards, billions de paramètres du modèle, la palette est conçu pour voler de valeur-clé d'accès distribué, des tranches de tableau valeur-clé dans le segment de verrouillage pour soutenir la demande de mises à jour simultanées. Et les caractéristiques de communication pour les fonctions de mise à jour massives rares, fondées sur l'auto-développement Baidu baidu-rpc package couche bibliothèque de communication logique de communication de formation distribuée. Les fonctions de paramètres serveur intégré comprend un paramètre de fusion de transmission de client, le patch de la demande, les paramètres du modèle de mise à jour, charger, enregistrer, etc., formant un des paramètres enfichable, composant serveur hautement concurrente, et le courant servir, de courtes scènes vidéo recommandées.

Figure 1: paddle Fly 100 milliards de conception du serveur de paramètres rares

Dix millions de classification à l'échelle

Les besoins pratiques de dix millions de classification à l'échelle: les champs visuels tels que la classification d'images, reconnaissance des visages, des systèmes de recommandation et d'autres applications des problèmes de classification des étiquettes généralement recommandées face à un million, voire des dizaines de millions, à l'heure actuelle, la classification est basée sur la profondeur du modèle d'apprentissage le moyen le plus efficace pour résoudre le problème, mais il est limité par les limites de la capacité matérielle actuelle de mémoire à accès aléatoire des paramètres du modèle stockés dans un modèle de classification est difficile à la carte GPU unique, ce qui limite le modèle de classement général pour la capacité de formation des utilisateurs à grande échelle. Pour ce problème, la meilleure solution est d'utiliser les moyens de modèle parallèle, mais la conception parallèle du modèle, la mise en uvre et la mise en service de haute performance pour la profondeur moyenne des développeurs de modèles d'apprentissage, seuil. À cette fin, la mouche pagaie lancé PLSC (Paddle grande échelle de classification), ce qui peut réduire considérablement le seuil pour le modèle basé sur l'application de la grande classification parallèle à grande échelle, et ont d'excellentes performances et d'évolutivité, de sorte que chaque développeur peut former rapidement modèle de classification de catégorie VLSI.

Fly paddle plsc Caractéristiques: prend en charge les données d'image tâches courantes lire façon, faire des catégories de classification, multi-machines distribué modèle de formation parallèle, la formation de précision de mélange automatique, la fourniture de services informatiques représentation sémantique niveau de la catégorie.

performances et l'évolutivité PLSC: pour carte mémoire 32G unique 8 est V100, par rapport à la tâche des données parallèles conventionnels, la classification PLSC peut soulever 250% du nombre de catégories. Lorsque vous utilisez le modèle 128 v100 formation parallèle, le nombre de catégories PLSC peut atteindre 50 millions de type d'extension. Dans le modèle parallèle de cartes multi-machine, le V100, par rapport à huit cartes unique, l'efficacité d'accélération PLSC que dans la classe plus de dix millions peut atteindre 80%.

Figure 2: technique de classification de catégorie à grande échelle basée sur un modèle de parallèle

Tableau 1: PLSC en hélice d'avion arcface efficacité multi Expansion

Vitesse réelle de qualité industrielle: LET vitesse de formation de modèle mouche

Sur la base de l'expérience référence mode de verrouillage paddle mouche Hogwild industrie, basée sur l'accumulation de Baidu pratique un large éventail de scénarios d'entreprise favorable à la poursuite a proposé une nouvelle communication de paramètres clairsemés, IO lecture asynchrone, le mode de formation Geo-SGD, multi-machines formation de carte à haute performance, la formation de précision mixte fonctionnalités pour aider les utilisateurs ordinaires à profiter de la vitesse de formation de modèle au niveau de l'industrie. Grâce à une communication innovante et le mode de formation, voler paddle en modèles à grande échelle ou un débit de données, réseau de communication est devenu facile à la vitesse du train et de l'efficacité sur les goulots d'étranglement de travail ont été grandement améliorées, et complète que des produits similaires dans la performance du marché.

la formation de serveur de paramètres asynchrone complet

paramètres de communication clairsemés : Sinon il sera en modèle d'apprentissage en profondeur, fonction rares nécessitent souvent un traitement spécial, apporter de sérieux problèmes à consommer de la mémoire et de la communication. Dans le cadre courant actuel apprentissage profond, la méthode la plus commune est caractérisée par des caractéristiques de vectorisation rares rares par tenseur de longueur variable, et des caractéristiques correspondantes incorporé recherche clairsemée. Dans les paramètres de la machine multi-serveur au cours de la formation, les paramètres de hauteur de vol pour l'utilisation du nombre clairsemé de différentes méthodes de traitement, à savoir par un amincissement premier threads simultanés asynchrones gradient combiné s'entraînent générés à un seul noeud, alors la communication par lots, ce opération réduit considérablement la quantité de trafic le processus de formation. Pour la formation clairsemée modèle basé sur les caractéristiques, multi-machine qui peut obtenir des effets à peu près linéaire speedup. IO de files d'attente multiples : Dans certains particulièrement grande quantité de données, les exigences à haut débit, mais sur un modèle plus petit pour calculer le coût de la mission elle-même, les données IO peuvent facilement devenir un goulot d'étranglement en matière d'efficacité de la formation. Pour résoudre ce problème, nous avons ciblé pour voler la conception hélice présente une cohérence de lecture asynchrone multi-file d'attente de données lues par les sacrifices nécessaires pour que la performance du modèle a été grandement améliorée. Aucun paramètre de verrouillage mode de partage : Retour en 2010, a proposé Hogwild le mode de partage des paramètres de verrouillage, l'idée de base qui est des paramètres rares du modèle en l'absence de mode de verrouillage d'écriture peut également obtenir un effet de convergence. Paddle va voler ce modèle comme la formation de serveur de paramètres par défaut et des communications rares et multi-file d'attente asynchrones IO, le potentiel des ressources matérielles de la CPU du serveur à l'extrême.

Figure 2: paddle volant tout le principe de la formation initiale

Tableau 2: pas de plein vol en formation asynchrone débit évolutivité des ensembles de données Criteo-CTR

Fly formation paddle Geo-SGD

Geo-SGD: avec les méthodes traditionnelles de formation différente serveur de paramètres, la hauteur d'origine mouche Geo-SGD (Geometric-SDG) utilisations finales travailleurs pour optimiser les paramètres du modèle, et par l'intermédiaire d'un intervalle définissables de communication, la synchronisation de l'interpolation de paramètre de modèle de formation locale . En outre, le serveur utilisera de manière asynchrone chaque différence de paramètres du modèle de fusion des travailleurs transmis. Avec la convergence du modèle, les paramètres du modèle entre le côté travailleur devient progressivement plus petit, l'ampleur du serveur global pour mettre à jour les paramètres du modèle sera réduit à façon géométrique.

En mode de formation asynchrone Geo-SGD, travailleur ne doit pas attendre que le serveur pour envoyer de nouveaux paramètres pour effectuer la formation, la façon dont l'effet d'entraînement et la vitesse ont été grandement améliorées. Mais ce mode est plus approprié peut être conservé dans un modèle unique, par exemple des scènes sémantiques de correspondance mot vecteur. Très peu de calcul, mais en utilisant une large gamme de modèle word2vec de la scène, par exemple, l'utilisation de modèles de formation des palettes de vitesse de formation Géo-SGD formation distribuée peut voler que des produits similaires la plupart 18 fois, et un ensemble de données de validation sont divulgués, le modèle effet sans aucune perte.

Figure 3: paddle Fly de la recherche théorie de l'algorithme Geo-SGD

Tableau 3: Extension du modèle et la lecture des données de communication deviennent facilement le goulot d'étranglement de Geo-SGD

carte GPU avec plusieurs formations de haute performance, la précision de mélange

L'expansion communication composant

topologie de communication Support: mouche palette supporte une variété de topologies de communication, tels que Ring-Based AllReduce, hierarchiques Allreduce, 2-D Allreduce similaire, un utilisateur peut personnaliser différentes topologies de communication, d'améliorer la performance globale de communication pour différents environnement de cluster.

gradient de compression automatique: Après avoir analysé les paramètres de la grandeur de gradient, le gradient de mouche heuristique pale ont été polymérisés pour exercer des communications de réseau à hautes performances, des communications de paquets dans un certain intervalle de temps de retard caractéristique sensiblement constante.

Communication simultanée: paddle volant grâce au soutien technique de communication multi-flux, la communication peut être compliquée par l'opérateur concerné, afin de profiter pleinement de l'avantage de la bande passante permettra de réduire de manière significative l'ensemble des communications de latence.

Opérateur collectif: paddle Fly assemblage par l'opérateur de la communication, ce qui améliore considérablement la flexibilité de la définition des algorithmes parallèles. bibliothèque de classification PLSC à grande échelle, par exemple, il peut être personnalisé modèle à grande échelle de développement de l'algorithme parallèle à travers une variété de l'opérateur collectif assemblage flexible.

Sur la base de la combinaison optimale des stratégies d'optimisation, le modèle classique de notre traitement du langage naturel et sur le terrain vision par ordinateur deux public à titre de comparaison de référence, paddle mouche avantage de la formation multi-moteur augmente avec le nombre de cartes GPU et d'augmenter progressivement, dans l'absolu performances et l'évolutivité sont pleines au-delà de l'autre divulgation des cadres.

Tableau 4: Comparaison mouche carte palette longitudinale avec plusieurs formations multi-machine et le cadre de référence

bénédiction de communication Blending précision

Sur la carte GPU demi-précision support, peut être ouvert automatiquement voler la précision de mélange palette (automatique de précision mixte, AMP) est calculé par la ligne de code, réduit considérablement le temps d'utilisation et de calcul mémoire d'une seule carte. Dans le cas de la formation de carte multi-machines, paddle de formation de vol distribué technologie informatique à travers l'analyse du graphique, pour le cas de précision mixte de formation de carte multi-machine, combinée avec le rôle de l'opération, de tous réduire la dépendance de l'opérateur de la mise au point pour assurer une communication multi-machines lors de la communication en utilisant la moitié précision. Dans le cas des communications précision mixte, la précision de la formation du modèle n'est pas affectée, et la consommation de bande passante de communication a diminué de 50%, afin d'assurer la précision des palettes de mélange automatique pour voler multimoteur situation de formation multi-cartes est encore mieux speedup.

Figure 4: Demi-précision Principe de communication de la carte de la machine de la précision de mélange de formation multi du pas de vol automatique

Le tableau 5 montre la palette à la volée modèle Resnet50, sur la base de la précision totale de la formation et de test des ensembles de données IMAGEnet de mélange latéral extensibilité longitudinale formation de la précision et l'extensibilité dans le cas de plusieurs machines. À l'appui de précision de mélange de l'hélice à la mouche, le GPU avec une capacité de carte d'extension latérale multiple sous la pleine précision est considérable, tandis que les extensions longitudinales pour améliorer le débit de formation a atteint plus de 2 fois.

Tableau 5: Voler avec carte palette d'évolutivité multiples mélange automatisé précision formation

Pratt & Whitney de la véritable AI: la réduction des coûts et avantages à tous les développeurs

Pour autre avantage l'utilisateur moyen, l'hélice volante a été spécialement développé pour un certain nombre de scénarios différents, y compris distribués pour personnaliser une variété de différents modes de formation API Fleet, pour aider à améliorer l'effet de la vitesse de formation et le gradient de profondeur de compression GPU cloud public (Deep gradient de compression) la technologie et de la technologie LocalSGD, la formation ultra-grande échelle dans la technologie informatique peut améliorer considérablement le poids de la taille du lot. Grâce à l'innovation et l'intégration des technologies existantes aux fonctionnalités existantes, voler paddle une réduction significative du modèle d'apprentissage distribué de la formation des utilisateurs, mise en service et compter le coût de l'énergie, pour aider les utilisateurs à obtenir rapidement le meilleur effet d'entraînement.

API flotte

La plupart formation des utilisateurs d'apprentissage en profondeur dans l'utilisation de la fonction distribuée normalement rencontrées quatre problèmes majeurs: 1) Comment peut se transformer en un programme local programme de formation distribué; 2) comment soumettre un programme de formation distribué au cluster; 3) devrait Quel genre de méthodes de formation parallèles adoptées, comment définir, 4) les moyens d'améliorer l'efficacité de leurs propres tâches de formation.

Afin de réduire le seuil pour les utilisateurs d'utiliser les coûts de formation et de formation distribués, paddle volant offre une formation distribuée API flotte, afin d'aider les utilisateurs à obtenir une excellente expérience de la performance.

En utilisant l'API Fleet, les utilisateurs ne doivent ajouter plus de dix lignes de code, vous pouvez utiliser la palette pour voler serveur de paramètres synchronise la formation, la formation initiale, GPU Geo-SGD et la formation de synchronisation multi-cartes multi-machines, ce qui réduit considérablement l'utilisateur dans une variété de modes les coûts d'apprentissage associés à la commutation entre les deux. En outre, l'API Fleet fournit une interface pour interagir avec les ressources du cluster et la transparence de l'utilisateur, ce qui réduit considérablement le coût des ressources du cluster axées sur l'utilisateur pour le débogage. API Fleet fournit également une interface évolutive pour faciliter les développeurs de la communauté à la formation de customize pour accélérer les algorithmes parallèles.

Difficultés scénario de cloud public distribué la formation

Dans le groupe de pauvres environnement réseau, car la communication entre plusieurs machines par des limitations de bande passante, la mission de formation répartis dans la formation de plusieurs nuds, le stade de l'efficacité de la communication deviennent souvent le goulot d'étranglement de la formation tout distribué dans le cloud public lorsque la formation du cluster GPU, cette situation est particulièrement fréquente. Afin de permettre aux utilisateurs publics cloud formation distribuée peut être effectuée à une faible bande passante haute performance fournissant vol palette de compression de gradient de profondeur (Deep gradient de compression) technique.

palette Fly été optimisée sur la base de l'algorithme de papier d'origine. Compte tenu des paramètres du modèle dans différents modèles gradient fragmenté, volant au-dessus d'une certaine taille, seuls les paramètres du modèle aubes de gradient clairsemée communiquent au paramètre de synchronisation. Pour les paramètres petits modèles de gradient, qui ne tient pas compte très différent des retards de communication TopK paramètres du modèle de gradient, donc encore en utilisant le mécanisme de synchronisation de cartes multi machine normale. À l'heure actuelle, des palettes volantes technologie de compression de gradient de profondeur a été appliquée dans plusieurs AI mis en place dans la plate-forme de cloud public par l'évaluation interne des données d'entreprise, même dans le cas de facteur prédictif de calcul de formation de cartes multi-machine faible de la carte P4, mouche paddle technologie DGC permettra également de réduire le temps de formation de 40% -60%.

LocalSGD

Pour les scènes de cloud public, tout en offrant palette LocalSGD mouche technique de formation multi-machine, qui peut être mis à jour les paramètres du modèle localement fusion pondérée entre plusieurs étapes de la carte multi-machine. Un grand nombre d'expériences montrent que l'utilisation de la technologie fly paddle LocalSGD pour la formation multi-machines, n'aura pas d'impact significatif sur le modèle de l'effet de convergence. Pendant ce temps, l'entraînement par intervalles de synchronisation multi-cartes multi-machine, car les paramètres par rapport à expansion classique, l'ensemble a une speedup bonne augmentation.

Une technique de calcul de poids permet d'économiser la mémoire à train parallèle surdimensionné par lots

Fly formation paddle avec une carte GPU multiples, l'utilisateur peut augmenter la taille globale des lots de taille par la technologie de re-calcul, ce qui est faible dans une mémoire ou un numéro de carte GPU sur puce n'est pas des scènes très efficaces.

Fly technologie informatique de lourde palette: Avec l'augmentation progressive de la taille des données de formation, plus de formation, le modèle plus profond d'apprentissage en profondeur se généralise. Dans le modèle de formation en cours d'apprentissage en profondeur, le modèle veut généralement garder la couche cachée des résultats de calcul à terme. Comme le nombre de résultats augmentera de façon linéaire avec l'augmentation du nombre de couches du modèle, la taille de la mémoire des puces informatiques actuels capables d'utiliser un défi. Pour cette raison, la mouche paddle proposée avant technique rétropropagation Nouveau calcul (de FRB), en effectuant le recalcul nécessaire de la logique de processus inverse vers l'avant, la mémoire avec le nombre de couches pour atteindre une croissance augmentation de sublinéaire.

Figure 5: poids mouche palette de calcul des principes d'optimisation de la mémoire

calcul de poids de lot prolongée Taille principe: avant que la mémoire est libérée pour le résultat intermédiaire de la couche cachée, et un point d'ancrage local est recalculée en fonction du processus inverse.

La figure 6. courbe Bert de changement de modèle dans un calcul d'une étape de mémoire

In & FP32 utilisation 32G V100, nous avons réalisé les plus grands tests de taille de lot dans un certain nombre de modèles différents, qui offrent jusqu'à 600%. Dans le cas distribué, car il y aura du temps de communication avec le temps de recalcul automatique doit coïncider, les performances de la plupart des modèles de formation diminue les contrôles dans 20%, la détection de débit du modèle de classe de formation multi-machines ne sera pas affectée.

Tableau 6. levage mouche pagaies technique de calcul de poids maximum de la formation d'une pluralité de modèles de lots

Open Source est pas facile, voler pagaie pour accélérer, seul souhait

2013, Baidu a commencé à développer PaddlePaddle cadre de l'apprentissage en profondeur, de recherche et d'autres modèle de base en ligne DNN d'affaires.

2016 Congrès mondial de Baidu, Baidu a annoncé open source PaddlePaddle, marquant ainsi la naissance de la profondeur de la plate-forme d'apprentissage open-source interne.

2019 PaddlePaddle publié le nom chinois « paddle volant », mise à niveau vers qualité industrielle complet open source plate-forme ouverte, la technologie et la construction de l'augmentation de l'écologie industrielle.

Après plusieurs années ont insisté sur la bonne voie, l'hélice de vol a commencé à accélérer.

Cependant, ces succès durement gagné, car seule une très petite partie de l'éco-construction open source, les sociétés commerciales ont tendance à considérer le rapport d'entrée-sortie et développer leur propre cadre d'apprentissage profond, à la fois les exigences de résistance technique complète AI, mais aussi besoin de développer vivaces continuer à investir des ressources, le monde est que Google, Facebook, Baidu et d'autres géants majeurs d'Amnesty International continue d'investir dans ce sens.

Un cadre d'apprentissage profond pour les développeurs de produits à être approuvé par la majorité, que sur la base d'une compétitivité technologique globale, durable près des besoins de l'utilisateur de polissage, construire sur les écosystèmes en aval autour du cadre, établissant ainsi un haut degré de compétitivité des barrières.

Construire le cadre de l'apprentissage en profondeur est pas de raccourci, créer un véritable cadre de qualité industrielle apprentissage en profondeur est, Baidu bénédiction plus difficile voler pagaie, les nouveaux arrivants aussi béni.

 Hogwild: Une approche Lock-libre pour parallélisation Stochastic Gradient Descent Feng Niu, Benjamin Recht, Christopher Re, Stephen J. Wright.

 Profonde gradient de compression :. Réduire la bande passante de communication pour la formation distribuée Yujun Lin, Song Han, Huizi Mao, Yu Wang, William J. Dally

 Local SGD convergeant rapide et peu de communication. Sebastian U. Stich

 La formation de Deep Nets avec sublinéaire coût mémoire. Tianqi Chen, Bing Xu, Zhang Chiyuan, Carlos Guestrin

Pay? Publicité? Les dons? Comment faire vivre un logiciel open source?
Précédent
350.000 lignes de code, ouvert en fonction de la profondeur de l'apprentissage cadre open-source de forte Tianyuan permet le développement de quatre propriétés
Prochain
Tsinghua « carte mètre », vue dégagée « Tianyuan » open source ont lourd, cadre d'apprentissage profond pour le marché intérieur
Choqué, j'ai pu dans cette façon de construire secondes de cluster Redis?
60000 tête de Pékin prix des logements, le programmeur comment s'installer eux-mêmes?
Tsinghua Sciences groupe Pa des entreprises industrielles Aiot re-créer des dizaines de millions de financement: le joueur doit pousser à exécuter des algorithmes sur le bord puce AI
Apprentissage Python, ce pack 22 Comment pouvez-vous pas comprendre?
réponse Ali « pour combattre beaucoup de personnel compte Taobao a été fermé », micro lettre conjointement face à nouveau hacker virus de la Couronne du livre Marathon; Kubernetes 1,18 | libération G
Tant que huit étapes, apprendre cette commande Docker ultime Tutoriel
Siri compose automatiquement le 911, le site Google construit le dépistage, les ingrédients pharmaceutiques de test IBM, l'action internationale dans la lutte contre le SRAS
Byte battre Wuhan recruter 2.000 personnes, des fabricants offrent, vous court de ce Java sec! | Programme de travail
Quand votre entreprise a-t-elle besoin de l'intelligence artificielle? | Des millions de personnes apprennent l'IA
Détection biométrique, comparaison de visages ... Comment FaceID fait-il face à la cécité? | Des millions de personnes apprennent l'IA
Un chercheur principal de Microsoft explique le DNN efficace basé sur la convolution de groupe entrelacé | Million People Learning AI