L'apprentissage machine d�pendra de plus en FPGA et SoC

Cet article du EETOP traduit de semiengineering, Auteur: KEVIN FOGARTY

Une s�rie de la machine d'apprentissage pour optimiser la puce devrait commencer � exp�dier dans les prochains mois, mais le centre de donn�es a besoin de temps pour d�cider si ces nouveaux acc�l�rateurs vaut la peine, et si elles peuvent vraiment obtenir une augmentation substantielle de la performance.

Il y a beaucoup de rapports que l'apprentissage machine puces personnalis�es de conception fournira 100 fois la performance de la s�lection actuelle, mais leur fonction pour exiger un usage commercial test r�el n'a pas encore �t� confirm�e, le nouveau centre de donn�es est le plus technologiquement conservateur dans l'un d'entre eux. Cependant, Graphcore, Habana, ThinCI Computing Wave et d'autres entreprises de d�marrage bien connus ont dit qu'ils auront une puce de test pr�coce fournit aux clients. Mais aucune soci�t� a commenc� � exp�dier, on n'a m�me pas montrer ces puces.

Le nouveau dispositif a deux principaux march�s. l'apprentissage automatique des donn�es du r�seau de neurones est divis� en deux grandes phases: la formation et le raisonnement, et utiliser diff�rentes puces � chaque �tape. Bien que la phase d'apprentissage du r�seau de neurones est elle-m�me se trouve g�n�ralement dans le centre de donn�es, mais il peut avoir un assemblage bord pour la phase d'inf�rence. La question est maintenant quel type de puce et de configuration qui peut produire l'apprentissage en profondeur le plus rapide, le plus efficace.

Il semble FPGAs et SoC gagnent plus d'attrait. Tirias pr�sident recherche Jim McGregor (Jim McGregor) a d�clar� que ces centres de donn�es ont besoin de la flexibilit� des puces programmables et grande capacit� d'E / S, ce qui contribue au volume �lev� de donn�es dans la formation FPGA et le raisonnement, la demande de faible puissance de traitement jouer un r�le.

Par rapport � il y a quelques ann�es, FPGA est maintenant r�gl� pour une fr�quence plus faible de formation, mais la fr�quence de leur utilisation sur toute autre question d'�tre beaucoup plus �lev�, mais ils sont susceptibles de continuer � cro�tre l'ann�e prochaine. M�me si environ 50 processeur d�di� r�seau de neurones optimis� d�veloppement it�ratif des start-ups aujourd'hui ont livr� le produit fini, le processus de production dans un centre de donn�es de taille, ont �galement besoin 9-18 mois.

McGregor a d�clar�: � Personne ne va acheter un centre de donn�es tout pr�t, puis le mettre sur une machine de production. � � Vous devez vous assurer qu'il r�pond aux exigences de fiabilit� et de performance avant qu'il puisse �tre pleinement d�ploy�e �.

Figure 1: diff�rents types de puces en profondeur la comptabilit� d'apprentissage

Pour la nouvelle architecture et la micro-architecture, ont encore une chance. ML charge de travail est en pleine expansion. OpenAI un rapport en mai a montr� que la puissance de calcul maximale pour la formation AI / ML tous les 3,5 mois a doubl� depuis 2012, le montant total de la puissance de calcul a augment� de 30 fois. En revanche, selon la loi de Moore, doublant les ressources disponibles tous les 18 mois, la capacit� totale finale a augment� de seulement 12 fois.

Open.AI not� pour les plus grands syst�mes de formation (dont certains prennent jours, voire des semaines) besoin de d�penser des millions de dollars pour acheter, mais il est pr�vu que la majeure partie du mat�riel des fonds d'apprentissage de la machine sera utilis�e raisonnement.

Figure 2: Calculer la demande augmente

Ceci est un �norme de nouvelles opportunit�s. Tractica dans un rapport 30 mai pr�voit que d'ici 2025, la taille du march� de la profondeur du jeu de puces d'apprentissage a augment� en 2017-66300000000 $ de 1,6 milliards de dollars am�ricains, y compris CPU, GPU, FPGA, ASIC, SoC acc�l�rateur et d'autres chipsets. Une grande partie proviendra des soci�t�s non-puce qui publient leur propre jeu de puces d'acc�l�rateur d'apprentissage en profondeur. Le TPU de Google fait donc, l'industrie dit, Amazon et Facebook prennent le m�me chemin.

McGregor a dit que maintenant le principal SoC de direction au lieu de composants s�par�s et SoC, FPGA et ASIC strat�gies de diversification des fournisseurs et des paquets augmente.

Xilinx, Inetel et d'autres entreprises tentent d'ajouter d'autres composants au processeur et le r�seau FPGA pour augmenter la taille du FPGA. D'autres, comme Flex Logix, Achronix et Menta, int�gr�s dans le bloc de FPGA � proximit� des zones de la fonction sp�cifique des ressources SoC, et d�pend d'une interconnexion � haut d�bit de donn�es haute performance et continue en mouvement.

McGregor a d�clar�: � Vous pouvez utiliser FPGA partout o� vous voulez E / S programmable, les gens les utiliser pour le raisonnement et la formation parfois, mais vous trouverez qu'ils seront plus utilis�s pour traiter de grandes t�ches de donn�es plut�t que de la formation, ce qui n�cessite beaucoup de multiplication matricielle, mieux adapt�e au GPU �.

Cependant, le GPU n'est pas une esp�ce en voie de disparition. Selon Karl Freund MoorInsights et analystes Strat�gie a d�clar� dans un billet de blog.

NVIDIA a publi� un communiqu� plus t�t ce mois-ci NVIDIA TensorRT surdimensionn� plates-formes de raisonnement, y compris la fourniture de Tesla GPU T4 et 260 billions de fois par seconde, arithm�tique quatre entier (TOPS) pour la formation du raisonnement 65TFLOPS - assez pour g�rer 60 vitesse vid�o de 30 images par seconde flux. Il comprend 320 � � Tensorcores Turing optimis�s pour les calculs entiers raisonnement requis.

La nouvelle architecture

Graphcore est l'un des plus jeunes pousses, le transistor 23600000000 d�veloppe une � unit� de traitement intelligent � (l'UIP), une m�moire sur puce de 300 Mo, 1216 noyau, chaque noyau peut �tre r�alis�, la bande passante 11GFlops m�moire interne 30 To / s. Dans lequel deux PCIe � l'aide d'une seule carte, chaque carte est con�ue pour contenir l'ensemble du r�seau de neurones sur une seule puce.

l'architecture � puce � venir graphiques GraphCore, qui en fonction de son logiciel convertit les donn�es en un sommet, dans lequel l'entr�e num�rique appliqu� � leurs fonctions (addition, soustraction, multiplication, division), et le r�sultat est d�fini s�par�ment, peuvent �tre trait�es en parall�le . ML plusieurs autres start-ups utilisent �galement des m�thodes similaires.

Vague Computing n'a pas dit lors de l'exp�dition, mais en conf�rence de mat�riel d'intelligence artificielle la semaine derni�re a r�v�l� plus d'informations sur son architecture. Les plans de l'entreprise pour vendre le syst�me au lieu d'une puce ou carte de circuit, avec l'utilisation de 15 Go / ports sec et processeur 16nm et la m�moire HMC reli�s entre eux, cette s�lection est con�u pour pousser rapidement le processeur graphique en transmettant des donn�es sans passer par un cluster de processeurs sur un goulot d'�tranglement du bus PCIe. La soci�t� explore tourner la m�moire de HBM pour acc�l�rer le d�bit.

Figure 3: La premi�re g�n�ration de l'unit� de traitement de flux de donn�es d'onde calcul�e

L'un des meilleurs indicateurs de l'apprentissage de la machine et future tranche de support h�t�rog�ne de Microsoft - il est FPGA, GPU et d'autres grande �tude approfondie de l'acheteur.

� Bien que l'architecture orient�e d�bit, tels que GPGPU et le lot orient� NPU, est tr�s populaire dans la formation en ligne et des services, mais le mod�le en ligne DNN, services de faible latence, leur efficacit� est pas �lev�, � 2018 un document publi� le mois dernier d�crit projet Brainwave, qui est la derni�re version du r�seau de neurones profonde de Microsoft (DNN) efficacement FPGA.

Microsoft sera la premi�re � grande �chelle FPGA largement utilis� comme centre de donn�es DNN raisonnement acc�l�rateur d'inf�rence de r�seau de neurones. Steven Woo inventeur exceptionnel et vice-pr�sident des solutions technologiques de l'entreprise pour Rambus, a d�clar� la compagnie ne les utilisera pas comme un simple co-processeur, mais � moteur plus flexible, pointe informatique. �

Selon Microsoft, les projets Brainwave peuvent utiliser Intel Stratix piscine 10 FPGA pour offrir des performances efficace de 39,5 Tflops, qui peuvent �tre partag�es par un logiciel CPU FPGA sur les appels du r�seau. cadre du syst�me ind�pendant pour exporter la profondeur du mod�le de r�seau de neurones, pour les convertir en micro-services, pour fournir � en temps r�el � Azure Bing raisonnement recherche et d'autres services.

Figure 4: Le projet de Brainwave Microsoft DNN mod�les en mat�riel d�ployables micro-services, sera export� vers un cadre DNN de repr�sentation graphique commune et assign sous-image � la CPU ou FPGA

Brainwave fait partie de Deloitte Touche Tohmatsu (DeloitteGlobal) des � changements radicaux � appel�s, ce changement mettra l'accent sur le FPGA et ASIC, d'ici � 2018, ils repr�sentent 25% de l'acc�l�rateur apprentissage automatique des parts de march�. 2016, occupent CPU et le GPU d'une part de march� de moins de 20 millions d'unit�s. Deloitte pr�voit que d'ici 2018, CPU et GPU continueront de ventes dominer plus de 500000, mais avec le double du nombre de projets ML en 2017 et 2018, a doubl� � nouveau en 2018-2020, le march� total comprend 200000100000 FPGA et ASIC.

Deloitte Touche Tohmatsu (Deloitte) la repr�sentation, la consommation d'�nergie FPGA et ASIC est plus faible que beaucoup le GPU, CPU, ou m�me 75 watts de consommation d'�nergie encore plus bas que l'heure TPU Google. Ils peuvent �galement am�liorer les performances d'une fonction sp�cifique choisie par le client, qui peut �tre programm� pour changer avec le changement.

Achronix de SteveMensor vice-pr�sident du marketing, a d�clar�: � Si les gens ont le choix, ils seront construits au niveau du mat�riel avec des choses ASIC, mais FPGA mieux que la puissance du GPU / performance, mais aussi en termes de leur architecture fixe ou pr�cision variable tr�s bon ".

ArterisIP CharlieJanac Pr�sident-Directeur G�n�ral, a d�clar�: � Il y a beaucoup de sous-syst�me de m�moire, vous devez consid�rer les applications de faible puissance et la mise en r�seau, la grille et la boucle. � � Vous pouvez donc que tous dans une seule puce , ce sont vos choses de d�cision puces ont besoin, ou vous pouvez ajouter � haut d�bit sous-syst�me HBM, mais la charge de travail est tr�s particuli�re, chaque puce a plusieurs charges de travail. par cons�quent, l'entr�e de donn�es est �norme, en particulier Si vous voulez traiter avec des choses comme le radar radar et laser, et ces choses n'ont pas d'interconnexion avanc�e, il ne pouvait exister.

En raison de la particularit� de l'application, le type de connexion pour l'interconnexion de processeur ou d'un acc�l�rateur peut varier largement.

Un Nushi Mohandas (Anush Mohandass), vice-pr�sident du marketing et du d�veloppement commercial de NetSpeed Systems, a d�clar�: � Dans les principaux domaines, le besoin urgent d'am�liorer l'efficacit� de grande �chelle. � � � Nous pouvons mettre ASIC et FPGA et SoC, notre le budget plus important, nous pouvons dans le rack. � Mais en fin de compte, vous devez �tre efficace, vous devez �tre en mesure d'effectuer plusieurs t�ches configurable ou programmable si vous pouvez multicast applications � la charge de travail de traitement vectoriel, et la charge de travail de traitement vectoriel est le contenu de la plupart de la phase de formation, vous. peut faire sera grandement prolong�e �.

FPGA est pas particuli�rement facile � programmer, mais pas non plus aussi facile d'ins�rer la conception Lego, bien qu'ils progressent rapidement dans cette direction, SoC plus facile � utiliser des noyaux de calcul, des noyaux DSP et d'autres modules IP que FPGA.

Cependant, une transition similaire d'une puce FPGA int�gr� SoC d'avoir un syst�me complet pour les donn�es sur les applications de fond de panier optimis� puce d'apprentissage de la machine est pas aussi facile que cela puisse para�tre.

Mohandass a d�clar�: � L'environnement est donc la performance extr�me, la demande est si diff�rente, de sorte que le domaine de l'intelligence artificielle avec une architecture SoC traditionnelle est compl�tement diff�rent. � � Il y a point de plus � la communication point que vous faites ces travaux de traitement vectoriel, le succ�s. plusieurs milliers de lignes de la matrice, vous avez tous ces core disponibles, mais nous devons �tre en mesure de centaines de port�e de milliers de curs, plut�t que des milliers.

La performance est critique. Conception, l'int�gration, la fiabilit� et la facilit� d'interop�rabilit� est vrai fournisseurs de --SoC de se concentrer sur le cadre sous-jacent et l'environnement de conception / d�veloppement, non seulement le chipset pour les besoins sp�cifiques du projet d'apprentissage automatique.

NetSpeed a lanc� une version mise � jour con�ue sp�cialement pour l'apprentissage en profondeur et d'autres applications d'intelligence artificielle int�gr�e plate-forme SoC, le service facilite l'int�gration NetSpeed IP, la plate-forme de conception � l'aide d'un moteur d'apprentissage de la machine est recommand� bloc IP pour compl�ter la conception. La soci�t� a d�clar� que l'objectif de fournir une bande passante sur la puce enti�re, plut�t que le traitement centralis� et m�moire de conception classique.

Mohandass dit: � De ASIC � puce neuromorphic, puis � l'informatique quantique, tout est en cours, mais m�me si nous ne changeons pas notre infrastructure globale actuelle (afin d'adapter au nouveau processeur), la production � grande �chelle de ces puces reste dans un avenir pr�visible. � mais nous r�soudre le m�me probl�me. Quand ils travaillent de haut en bas, nous devons travailler d�s le d�part en bas.

CEOGeoff Tate Flex Logix croit, centre de donn�es CPU est toujours l'�l�ment de traitement de donn�es les plus couramment utilis�s, suivis par FPGA et GPU. Mais il a soulign� que la demande est peu susceptible de tomber dans un court laps de temps, parce que les essais de centre de donn�es pour r�pondre � la demande pour leurs applications d'apprentissage de la machine.

Tate dit: � Les gens d�pensent beaucoup d'argent pour concevoir un meilleur que les produits GPU et FPGA. � � La tendance g�n�rale semble �tre plus mat�riel r�seau de neurones sp�cialis�s, donc c'est l� que nous pouvons �tre dirig�s. � par exemple, Microsoft dit, ils utilisent tout --cpu, GPU, TPU et FPGA-- selon eux, ils peuvent obtenir le meilleur rapport qualit�-prix dans une charge de travail particuli�re.

Lien original: https: //semiengineering.com/machine-learning-shifts-more-work-to-fpgas-socs/

Route de la soie

Apprenez � conna�tre la Chine

L'apprentissage machine d�pendra de plus en FPGA et SoC