Armer la premi�re g�n�ration de l'architecture IA si mortelle! Set Nvidia, Intel, Xilinx trois avantages dans un

Ji-won nouveau rapport

Au cours des derni�res ann�es, il y a eu plusieurs entreprises de d�marrage puce d�di�e � trouver de nouvelles fa�ons de former efficacement et ex�cuter r�seau de neurones, mais bas�s sur des technologies et des concepts existants bas�s sur il est vraiment n�cessaire de repartir � z�ro?

Cette semaine, lors de la conf�rence annuelle Hot Chips, ARM a d�montr� ses processeurs d'apprentissage de la machine de premi�re g�n�ration attendus plus tard cette ann�e, les partenaires ARM peuvent utiliser leur adresse IP.

�tre un public � long, � combat � ARM meilleur processeur du monde AI

L'architecture du processeur appel� � Trillium �, nous est pas �tranger � une partie de l'�l�ment logique de base est fourni avec ARM, pour ceux qui ont besoin de capacit�s Volta Nvidia GPU de personnes TensorCore, processeurs ARM peut d�tecter ce major, tels que les r�seaux de neurones DeePhi compression (maintenant partie de la Xilinx), la programmation de FPGA, une faible consommation d'�nergie et la capacit� de traitement DSP.

En d'autres termes, ARM peut avoir juste � mettre ensemble � meilleur processeur AI du monde, qui, pour les fabricants de puces pour placer beaucoup d'espace suppl�mentaire dans le grand dispositif universel, il peut apporter beaucoup d'ennuis.

Ian Bratt, directeur de la technologie ARM cette semaine � la repr�sentation Chips Hot, premi�re incursion dans le but de la conception du processeur AI ARM est de promouvoir autant que possible, afin de r�pondre � la demande du march� pour le serveur c�t� AI, AI et son propre processeur pour plus de voitures et sur les petits appareils ont des besoins de choses.

Bratt a d�clar�:

� Dans le d�veloppement de la premi�re g�n�ration de processeur d'apprentissage de la machine, il y a eu quelques erreurs au d�but nous appliquerons l'ancien cadre dans le nouveau num�ro. Nous savons GPU, CPU et DSP est utilis� sur l'apprentissage de la machine, mais nous avons commenc� � �tudier comment peut clairement utiliser toutes les technologies que nous pouvons utiliser la technologie et probl�me de programmabilit� contr�le des processus de CPU, des solutions technologiques GPU avec la compression de donn�es, les donn�es et la densit� de l'informatique mobile et d'autres questions, ce qui peut am�liorer l'efficacit� des DSP et des logiciels open source d�veloppement ".

Comme indiqu� ci-dessous, l'architecture ARM et rien de sp�cial apprentissage machine, mais il convient de noter que l'architecture a absorb� du mat�riel, les avantages et le compilateur des innovations les plus r�ussies en compression.

Architecture B�timent module de moteur de calcul, chaque bloc de 64 Ko puce de m�moire SRAM, un total de 16. Moteur MAC (NVIDIA TensorCore avec diff�rents) de convolution locale, la plupart du brassage programmable n�cessaire entre les couches de la couche de r�seau est responsable de moteur de manutention. L'architecture a un moteur DMA, destin� � communiquer avec une interface de m�moire externe. propre technologie Cortex responsable du contr�le du moteur ARM.

Plus besoin de cache, le flux de contr�le tr�s simplifi�

Pour une des soci�t�s ax�es sur l'innovation, ARM prend une de leur propre mani�re unique. premi�re incursion dans la puce de l'intelligence artificielle, les composants de puce ne sont pas �trangers, ARM a fait sur les r�seaux de neurones pour produit scalaire (produit dot) une moteur cl� de l'innovation, l'am�lioration de l'efficacit�, le r�seau r�duit le bruit de l'entreprise .

Une caract�ristique que nous sommes susceptibles d'�tre n�glig� est que la valeur d'ordonnancement statique (ordonnancement statique), qui est un �l�ment cl� de la performance et l'efficacit� de la puce d'impact global.

mod�le d'acc�s m�moire est une analyse compl�tement statique, et il est facile � comprendre et � la carte, de nombreux appareils ne prennent pas avantage. CPU a une hi�rarchie de cache complexe, peut �tre utilis� pour l'optimisation des acc�s m�moire non-d�terministe, mais la certitude du r�seau de neurones peut avancer tout le contenu de la m�moire. Alors, le compilateur g�n�re un courant de commande pour les diff�rents composants (par allou� par le processeur de commande de ARM) et � destination du registre pour commander ces composants.

En un mot, il est: pas de cache. Il y a aussi un avantage du processus est grandement simplifi� le contr�le de flux, peut r�duire davantage la consommation d'�nergie, d'am�liorer la pr�visibilit� des performances du processeur.

traitement de Convolution des moyens d'am�liorer encore l'efficacit�. La figure montre comment la cartographie mod�le de compression du compilateur SRAM et de l'allocation des ressources pour la partie caract�ristique d'entr�e. Chaque moteur de calcul utilisera diff�rentes fonctionnalit�s � travers diff�rentes cartographies moteur de calcul.

Le moteur peut faire MAC ARM 816 � 16 produit scalaire. Nous avons d�j� discut� de l'importance de cela, mais il y a beaucoup de z�ros dans ces op�rations, et des ajustements peuvent �tre d�tect�s dans le moteur MAC afin d'�viter de gaspiller plus d'�nergie.

couche de puce ARM comprend en outre un moteur programmable con�u par un programmable � voir � le processeur. Il utilise la technologie du processeur Cortex pour support op�rateur non convolution, ainsi que des vecteurs et l'expansion du r�seau de neurones.

En utilisant les caract�ristiques du processeur de la carte apprentissage machine technologie de compression peut atteindre une plus grande efficacit�, similaire au r�le de ces technologies dans le son et la compression DeePhi sur CNN.

Pour cr�er une plate-forme commune, l'apprentissage machine et int�grer les processus existants

Bratt a dit que la machine actuelle ARM entreprise d'apprentissage avec 150 employ�s, � la demande croissante pour l'apprentissage de la machine, ce nombre continuera d'augmenter, et la machine � apprendre � int�grer dans de nouveaux et les flux de travail et les configurations existantes . Il a dit que notre objectif est de faire ce travail � travers une gamme de segments de march�, mais de fournir une plate-forme commune avec toutes les fonctionnalit�s dont ils ne doivent pas �tre aussi simple que d'une cat�gorie d'utilisateurs.

Aucune cache pour simplifier le processus de compression, une arithm�tique mixte pr�cision, et calcule sur des feuilles minces de SRAM combin�e transplant� au moteur de produit scalaire sup�rieure dense, ce qui rend la puce ARM IP devient un march� attractif il met l'accent, et peut �tre affin� pour les charges de travail critiques.

AI par rapport � un certain processeur de but sp�cial, le processeur ARM augmente la m�moire � haut d�bit (HMC) peut le rendre plus facile � identifier, mais exige que l'utilisateur autoris� � comprendre comment ces �l�ments du syst�me fonctionne ensemble. ARM ing�nieurs de l'�cosyst�me vraiment apprendre de la meilleure IA dans la technologie du processeur, et l'utilisation de crochets de logiciels open source, peuvent �largir consid�rablement la port�e de la licence.

La figure montre le bloc 8X8 cr�ation V3, la compression sans perte sont mis en �vidence par les r�sultats d'un proc�d� de filtrage de z�ro / non nul r�duit de mani�re significative la taille du r�seau de neurones. La compression restent � l'int�rieur de la SRAM, et conserv�s dans la technique la taille r�seau de SRAM � utiliser en cas de besoin.

S�lectionnez cette option pour autoriser ce type de technologie est pas beaucoup, mais aussi pour d�terminer ARM, qui a le plus de succ�s, des le�ons aux technologies et composants existants dans le processeur de r�seau de neurones.

Les liens de r�f�rence:

https://www.nextplatform.com/2018/08/22/arm-stands-on-shoulders-of-giants-with-first-generation-ai-processor/

Articles les plus populaires:

New Ji-won AI MONDE 2018 Assembl�e g�n�rale compte � rebours 24 jour

Billets d�j� en vente!

New Ji-won aura lieu le 20 Septembre AI Conf�rence mondiale des 2018 � Beijing National Convention Center, a invit� l'apprentissage machine parrain, en mettant l'accent sur le professeur de l'intelligence artificielle � la CMU Tom Mitchell, Maike Mark Si-Tiger, Zhou Zhihua, un grand Cheng Tao, Chen Yiran AI et d'autres dirigeants et le destin de l'humanit�.

Le site officiel de l'Assembl�e g�n�rale:

Billets de ligne active lien:
billet de ligne active de code � deux dimensions:

Route de la soie

Apprenez � conna�tre la Chine

Armer la premi�re g�n�ration de l'architecture IA si mortelle! Set Nvidia, Intel, Xilinx trois avantages dans un