L'apprentissage machine dépendra de plus en FPGA et SoC

Cet article du EETOP traduit de semiengineering, Auteur: KEVIN FOGARTY

Une série de la machine d'apprentissage pour optimiser la puce devrait commencer à expédier dans les prochains mois, mais le centre de données a besoin de temps pour décider si ces nouveaux accélérateurs vaut la peine, et si elles peuvent vraiment obtenir une augmentation substantielle de la performance.

Il y a beaucoup de rapports que l'apprentissage machine puces personnalisées de conception fournira 100 fois la performance de la sélection actuelle, mais leur fonction pour exiger un usage commercial test réel n'a pas encore été confirmée, le nouveau centre de données est le plus technologiquement conservateur dans l'un d'entre eux. Cependant, Graphcore, Habana, ThinCI Computing Wave et d'autres entreprises de démarrage bien connus ont dit qu'ils auront une puce de test précoce fournit aux clients. Mais aucune société a commencé à expédier, on n'a même pas montrer ces puces.

Le nouveau dispositif a deux principaux marchés. l'apprentissage automatique des données du réseau de neurones est divisé en deux grandes phases: la formation et le raisonnement, et utiliser différentes puces à chaque étape. Bien que la phase d'apprentissage du réseau de neurones est elle-même se trouve généralement dans le centre de données, mais il peut avoir un assemblage bord pour la phase d'inférence. La question est maintenant quel type de puce et de configuration qui peut produire l'apprentissage en profondeur le plus rapide, le plus efficace.

Il semble FPGAs et SoC gagnent plus d'attrait. Tirias président recherche Jim McGregor (Jim McGregor) a déclaré que ces centres de données ont besoin de la flexibilité des puces programmables et grande capacité d'E / S, ce qui contribue au volume élevé de données dans la formation FPGA et le raisonnement, la demande de faible puissance de traitement jouer un rôle.

Par rapport à il y a quelques années, FPGA est maintenant réglé pour une fréquence plus faible de formation, mais la fréquence de leur utilisation sur toute autre question d'être beaucoup plus élevé, mais ils sont susceptibles de continuer à croître l'année prochaine. Même si environ 50 processeur dédié réseau de neurones optimisé développement itératif des start-ups aujourd'hui ont livré le produit fini, le processus de production dans un centre de données de taille, ont également besoin 9-18 mois.

McGregor a déclaré: « Personne ne va acheter un centre de données tout prêt, puis le mettre sur une machine de production. » « Vous devez vous assurer qu'il répond aux exigences de fiabilité et de performance avant qu'il puisse être pleinement déployée ».

Figure 1: différents types de puces en profondeur la comptabilité d'apprentissage

Pour la nouvelle architecture et la micro-architecture, ont encore une chance. ML charge de travail est en pleine expansion. OpenAI un rapport en mai a montré que la puissance de calcul maximale pour la formation AI / ML tous les 3,5 mois a doublé depuis 2012, le montant total de la puissance de calcul a augmenté de 30 fois. En revanche, selon la loi de Moore, doublant les ressources disponibles tous les 18 mois, la capacité totale finale a augmenté de seulement 12 fois.

Open.AI noté pour les plus grands systèmes de formation (dont certains prennent jours, voire des semaines) besoin de dépenser des millions de dollars pour acheter, mais il est prévu que la majeure partie du matériel des fonds d'apprentissage de la machine sera utilisée raisonnement.

Figure 2: Calculer la demande augmente

Ceci est un énorme de nouvelles opportunités. Tractica dans un rapport 30 mai prévoit que d'ici 2025, la taille du marché de la profondeur du jeu de puces d'apprentissage a augmenté en 2017-66300000000 $ de 1,6 milliards de dollars américains, y compris CPU, GPU, FPGA, ASIC, SoC accélérateur et d'autres chipsets. Une grande partie proviendra des sociétés non-puce qui publient leur propre jeu de puces d'accélérateur d'apprentissage en profondeur. Le TPU de Google fait donc, l'industrie dit, Amazon et Facebook prennent le même chemin.

McGregor a dit que maintenant le principal SoC de direction au lieu de composants séparés et SoC, FPGA et ASIC stratégies de diversification des fournisseurs et des paquets augmente.

Xilinx, Inetel et d'autres entreprises tentent d'ajouter d'autres composants au processeur et le réseau FPGA pour augmenter la taille du FPGA. D'autres, comme Flex Logix, Achronix et Menta, intégrés dans le bloc de FPGA à proximité des zones de la fonction spécifique des ressources SoC, et dépend d'une interconnexion à haut débit de données haute performance et continue en mouvement.

McGregor a déclaré: « Vous pouvez utiliser FPGA partout où vous voulez E / S programmable, les gens les utiliser pour le raisonnement et la formation parfois, mais vous trouverez qu'ils seront plus utilisés pour traiter de grandes tâches de données plutôt que de la formation, ce qui nécessite beaucoup de multiplication matricielle, mieux adaptée au GPU ».

Cependant, le GPU n'est pas une espèce en voie de disparition. Selon Karl Freund MoorInsights et analystes Stratégie a déclaré dans un billet de blog.

NVIDIA a publié un communiqué plus tôt ce mois-ci NVIDIA TensorRT surdimensionné plates-formes de raisonnement, y compris la fourniture de Tesla GPU T4 et 260 billions de fois par seconde, arithmétique quatre entier (TOPS) pour la formation du raisonnement 65TFLOPS - assez pour gérer 60 vitesse vidéo de 30 images par seconde flux. Il comprend 320 « » Tensorcores Turing optimisés pour les calculs entiers raisonnement requis.

La nouvelle architecture

Graphcore est l'un des plus jeunes pousses, le transistor 23600000000 développe une « unité de traitement intelligent » (l'UIP), une mémoire sur puce de 300 Mo, 1216 noyau, chaque noyau peut être réalisé, la bande passante 11GFlops mémoire interne 30 To / s. Dans lequel deux PCIe à l'aide d'une seule carte, chaque carte est conçue pour contenir l'ensemble du réseau de neurones sur une seule puce.

l'architecture à puce à venir graphiques GraphCore, qui en fonction de son logiciel convertit les données en un sommet, dans lequel l'entrée numérique appliqué à leurs fonctions (addition, soustraction, multiplication, division), et le résultat est défini séparément, peuvent être traitées en parallèle . ML plusieurs autres start-ups utilisent également des méthodes similaires.

Vague Computing n'a pas dit lors de l'expédition, mais en conférence de matériel d'intelligence artificielle la semaine dernière a révélé plus d'informations sur son architecture. Les plans de l'entreprise pour vendre le système au lieu d'une puce ou carte de circuit, avec l'utilisation de 15 Go / ports sec et processeur 16nm et la mémoire HMC reliés entre eux, cette sélection est conçu pour pousser rapidement le processeur graphique en transmettant des données sans passer par un cluster de processeurs sur un goulot d'étranglement du bus PCIe. La société explore tourner la mémoire de HBM pour accélérer le débit.

Figure 3: La première génération de l'unité de traitement de flux de données d'onde calculée

L'un des meilleurs indicateurs de l'apprentissage de la machine et future tranche de support hétérogène de Microsoft - il est FPGA, GPU et d'autres grande étude approfondie de l'acheteur.

« Bien que l'architecture orientée débit, tels que GPGPU et le lot orienté NPU, est très populaire dans la formation en ligne et des services, mais le modèle en ligne DNN, services de faible latence, leur efficacité est pas élevé, » 2018 un document publié le mois dernier décrit projet Brainwave, qui est la dernière version du réseau de neurones profonde de Microsoft (DNN) efficacement FPGA.

Microsoft sera la première à grande échelle FPGA largement utilisé comme centre de données DNN raisonnement accélérateur d'inférence de réseau de neurones. Steven Woo inventeur exceptionnel et vice-président des solutions technologiques de l'entreprise pour Rambus, a déclaré la compagnie ne les utilisera pas comme un simple co-processeur, mais « moteur plus flexible, pointe informatique. »

Selon Microsoft, les projets Brainwave peuvent utiliser Intel Stratix piscine 10 FPGA pour offrir des performances efficace de 39,5 Tflops, qui peuvent être partagées par un logiciel CPU FPGA sur les appels du réseau. cadre du système indépendant pour exporter la profondeur du modèle de réseau de neurones, pour les convertir en micro-services, pour fournir « en temps réel » Azure Bing raisonnement recherche et d'autres services.

Figure 4: Le projet de Brainwave Microsoft DNN modèles en matériel déployables micro-services, sera exporté vers un cadre DNN de représentation graphique commune et assign sous-image à la CPU ou FPGA

Brainwave fait partie de Deloitte Touche Tohmatsu (DeloitteGlobal) des « changements radicaux » appelés, ce changement mettra l'accent sur le FPGA et ASIC, d'ici à 2018, ils représentent 25% de l'accélérateur apprentissage automatique des parts de marché. 2016, occupent CPU et le GPU d'une part de marché de moins de 20 millions d'unités. Deloitte prévoit que d'ici 2018, CPU et GPU continueront de ventes dominer plus de 500000, mais avec le double du nombre de projets ML en 2017 et 2018, a doublé à nouveau en 2018-2020, le marché total comprend 200000100000 FPGA et ASIC.

Deloitte Touche Tohmatsu (Deloitte) la représentation, la consommation d'énergie FPGA et ASIC est plus faible que beaucoup le GPU, CPU, ou même 75 watts de consommation d'énergie encore plus bas que l'heure TPU Google. Ils peuvent également améliorer les performances d'une fonction spécifique choisie par le client, qui peut être programmé pour changer avec le changement.

Achronix de SteveMensor vice-président du marketing, a déclaré: « Si les gens ont le choix, ils seront construits au niveau du matériel avec des choses ASIC, mais FPGA mieux que la puissance du GPU / performance, mais aussi en termes de leur architecture fixe ou précision variable très bon ".

ArterisIP CharlieJanac Président-Directeur Général, a déclaré: « Il y a beaucoup de sous-système de mémoire, vous devez considérer les applications de faible puissance et la mise en réseau, la grille et la boucle. » « Vous pouvez donc que tous dans une seule puce , ce sont vos choses de décision puces ont besoin, ou vous pouvez ajouter à haut débit sous-système HBM, mais la charge de travail est très particulière, chaque puce a plusieurs charges de travail. par conséquent, l'entrée de données est énorme, en particulier Si vous voulez traiter avec des choses comme le radar radar et laser, et ces choses n'ont pas d'interconnexion avancée, il ne pouvait exister.

En raison de la particularité de l'application, le type de connexion pour l'interconnexion de processeur ou d'un accélérateur peut varier largement.

Un Nushi Mohandas (Anush Mohandass), vice-président du marketing et du développement commercial de NetSpeed Systems, a déclaré: « Dans les principaux domaines, le besoin urgent d'améliorer l'efficacité de grande échelle. » « » Nous pouvons mettre ASIC et FPGA et SoC, notre le budget plus important, nous pouvons dans le rack. « Mais en fin de compte, vous devez être efficace, vous devez être en mesure d'effectuer plusieurs tâches configurable ou programmable si vous pouvez multicast applications à la charge de travail de traitement vectoriel, et la charge de travail de traitement vectoriel est le contenu de la plupart de la phase de formation, vous. peut faire sera grandement prolongée ».

FPGA est pas particulièrement facile à programmer, mais pas non plus aussi facile d'insérer la conception Lego, bien qu'ils progressent rapidement dans cette direction, SoC plus facile à utiliser des noyaux de calcul, des noyaux DSP et d'autres modules IP que FPGA.

Cependant, une transition similaire d'une puce FPGA intégré SoC d'avoir un système complet pour les données sur les applications de fond de panier optimisé puce d'apprentissage de la machine est pas aussi facile que cela puisse paraître.

Mohandass a déclaré: « L'environnement est donc la performance extrême, la demande est si différente, de sorte que le domaine de l'intelligence artificielle avec une architecture SoC traditionnelle est complètement différent. » « Il y a point de plus à la communication point que vous faites ces travaux de traitement vectoriel, le succès. plusieurs milliers de lignes de la matrice, vous avez tous ces core disponibles, mais nous devons être en mesure de centaines de portée de milliers de curs, plutôt que des milliers.

La performance est critique. Conception, l'intégration, la fiabilité et la facilité d'interopérabilité est vrai fournisseurs de --SoC de se concentrer sur le cadre sous-jacent et l'environnement de conception / développement, non seulement le chipset pour les besoins spécifiques du projet d'apprentissage automatique.

NetSpeed a lancé une version mise à jour conçue spécialement pour l'apprentissage en profondeur et d'autres applications d'intelligence artificielle intégrée plate-forme SoC, le service facilite l'intégration NetSpeed IP, la plate-forme de conception à l'aide d'un moteur d'apprentissage de la machine est recommandé bloc IP pour compléter la conception. La société a déclaré que l'objectif de fournir une bande passante sur la puce entière, plutôt que le traitement centralisé et mémoire de conception classique.

Mohandass dit: « De ASIC à puce neuromorphic, puis à l'informatique quantique, tout est en cours, mais même si nous ne changeons pas notre infrastructure globale actuelle (afin d'adapter au nouveau processeur), la production à grande échelle de ces puces reste dans un avenir prévisible. « mais nous résoudre le même problème. Quand ils travaillent de haut en bas, nous devons travailler dès le départ en bas.

CEOGeoff Tate Flex Logix croit, centre de données CPU est toujours l'élément de traitement de données les plus couramment utilisés, suivis par FPGA et GPU. Mais il a souligné que la demande est peu susceptible de tomber dans un court laps de temps, parce que les essais de centre de données pour répondre à la demande pour leurs applications d'apprentissage de la machine.

Tate dit: « Les gens dépensent beaucoup d'argent pour concevoir un meilleur que les produits GPU et FPGA. » « La tendance générale semble être plus matériel réseau de neurones spécialisés, donc c'est là que nous pouvons être dirigés. « par exemple, Microsoft dit, ils utilisent tout --cpu, GPU, TPU et FPGA-- selon eux, ils peuvent obtenir le meilleur rapport qualité-prix dans une charge de travail particulière.

Lien original: https: //semiengineering.com/machine-learning-shifts-more-work-to-fpgas-socs/

« Arrière-end » devrait assumer la pleine responsabilité? Police de la circulation oncle: Parce que vous avez fait ces cinq choses!
Précédent
groupe microcanal comme « magique », « les heures supplémentaires invisibles » pour apporter de nouvelles charges et de l'anxiété!
Prochain
Can 60 lbs Burberry? Amoy Mais aussi le prix du chou manger du homard de Boston? Détourner votre concept de shopping!
Ke Luo grammes national ou vendre 14-18000000 et voudrait demander à ces adversaires manger le gâteau!
Chine Petroleum Reserve dans le casse-tête, que ce soit le Japon dans le plus grand tyrans pétroliers du monde sont devenus un signal de danger
Li Chunjiang visage long! Aiko 8 tiers des H-24, au plus haut de deux Fortson l'a suspendu dans demeures Jones
hypothèse de Riemann est sur le point Révélez? Ne pas conduire des expériences trop tôt! Il pourrait apporter épique catastrophe
Pourquoi le Royaume-Uni, le Japon route à gauche, tandis que la Chine droite?
Un autre pays européens rentables bientôt sans visa! Le plaisir est pas moins élégante Balkans plus
Qui a dit que vous ne pouvez pas jouer sept contrôle des SUV? Ford Edge vous laisse laisser aller!
confirmation officielle! L tenant le pays pour signer des vols directs à Macau, ne pas envoyer off!
Prix Nobel de physique lauréat du « Père de la fibre optique » est mort Kao! la vie et une fibre optique lire l'histoire du développement de la communication de Wen Kao
Pas tout le temps pour se détendre! chiens détecteurs de formation sur le terrain, débusquer caché dans une entreprise de fabrication de drogue tanières ferme!
Michelin 2018 résultats seraient libérés, manger environ 200 par habitant la parité Asie Michelin (Tokyo / Macau / Shanghai)