Armer la première génération de l'architecture IA si mortelle! Set Nvidia, Intel, Xilinx trois avantages dans un

Ji-won nouveau rapport

Au cours des dernières années, il y a eu plusieurs entreprises de démarrage puce dédiée à trouver de nouvelles façons de former efficacement et exécuter réseau de neurones, mais basés sur des technologies et des concepts existants basés sur il est vraiment nécessaire de repartir à zéro?

Cette semaine, lors de la conférence annuelle Hot Chips, ARM a démontré ses processeurs d'apprentissage de la machine de première génération attendus plus tard cette année, les partenaires ARM peuvent utiliser leur adresse IP.

Être un public à long, « combat » ARM meilleur processeur du monde AI

L'architecture du processeur appelé « Trillium », nous est pas étranger à une partie de l'élément logique de base est fourni avec ARM, pour ceux qui ont besoin de capacités Volta Nvidia GPU de personnes TensorCore, processeurs ARM peut détecter ce major, tels que les réseaux de neurones DeePhi compression (maintenant partie de la Xilinx), la programmation de FPGA, une faible consommation d'énergie et la capacité de traitement DSP.

En d'autres termes, ARM peut avoir juste « mettre ensemble » meilleur processeur AI du monde, qui, pour les fabricants de puces pour placer beaucoup d'espace supplémentaire dans le grand dispositif universel, il peut apporter beaucoup d'ennuis.

Ian Bratt, directeur de la technologie ARM cette semaine à la représentation Chips Hot, première incursion dans le but de la conception du processeur AI ARM est de promouvoir autant que possible, afin de répondre à la demande du marché pour le serveur côté AI, AI et son propre processeur pour plus de voitures et sur les petits appareils ont des besoins de choses.

Bratt a déclaré:

« Dans le développement de la première génération de processeur d'apprentissage de la machine, il y a eu quelques erreurs au début nous appliquerons l'ancien cadre dans le nouveau numéro. Nous savons GPU, CPU et DSP est utilisé sur l'apprentissage de la machine, mais nous avons commencé à étudier comment peut clairement utiliser toutes les technologies que nous pouvons utiliser la technologie et problème de programmabilité contrôle des processus de CPU, des solutions technologiques GPU avec la compression de données, les données et la densité de l'informatique mobile et d'autres questions, ce qui peut améliorer l'efficacité des DSP et des logiciels open source développement ".

Comme indiqué ci-dessous, l'architecture ARM et rien de spécial apprentissage machine, mais il convient de noter que l'architecture a absorbé du matériel, les avantages et le compilateur des innovations les plus réussies en compression.

Architecture Bâtiment module de moteur de calcul, chaque bloc de 64 Ko puce de mémoire SRAM, un total de 16. Moteur MAC (NVIDIA TensorCore avec différents) de convolution locale, la plupart du brassage programmable nécessaire entre les couches de la couche de réseau est responsable de moteur de manutention. L'architecture a un moteur DMA, destiné à communiquer avec une interface de mémoire externe. propre technologie Cortex responsable du contrôle du moteur ARM.

Plus besoin de cache, le flux de contrôle très simplifié

Pour une des sociétés axées sur l'innovation, ARM prend une de leur propre manière unique. première incursion dans la puce de l'intelligence artificielle, les composants de puce ne sont pas étrangers, ARM a fait sur les réseaux de neurones pour produit scalaire (produit dot) une moteur clé de l'innovation, l'amélioration de l'efficacité, le réseau réduit le bruit de l'entreprise .

Une caractéristique que nous sommes susceptibles d'être négligé est que la valeur d'ordonnancement statique (ordonnancement statique), qui est un élément clé de la performance et l'efficacité de la puce d'impact global.

modèle d'accès mémoire est une analyse complètement statique, et il est facile à comprendre et à la carte, de nombreux appareils ne prennent pas avantage. CPU a une hiérarchie de cache complexe, peut être utilisé pour l'optimisation des accès mémoire non-déterministe, mais la certitude du réseau de neurones peut avancer tout le contenu de la mémoire. Alors, le compilateur génère un courant de commande pour les différents composants (par alloué par le processeur de commande de ARM) et à destination du registre pour commander ces composants.

En un mot, il est: pas de cache. Il y a aussi un avantage du processus est grandement simplifié le contrôle de flux, peut réduire davantage la consommation d'énergie, d'améliorer la prévisibilité des performances du processeur.

traitement de Convolution des moyens d'améliorer encore l'efficacité. La figure montre comment la cartographie modèle de compression du compilateur SRAM et de l'allocation des ressources pour la partie caractéristique d'entrée. Chaque moteur de calcul utilisera différentes fonctionnalités à travers différentes cartographies moteur de calcul.

Le moteur peut faire MAC ARM 816 × 16 produit scalaire. Nous avons déjà discuté de l'importance de cela, mais il y a beaucoup de zéros dans ces opérations, et des ajustements peuvent être détectés dans le moteur MAC afin d'éviter de gaspiller plus d'énergie.

couche de puce ARM comprend en outre un moteur programmable conçu par un programmable « voir » le processeur. Il utilise la technologie du processeur Cortex pour support opérateur non convolution, ainsi que des vecteurs et l'expansion du réseau de neurones.

En utilisant les caractéristiques du processeur de la carte apprentissage machine technologie de compression peut atteindre une plus grande efficacité, similaire au rôle de ces technologies dans le son et la compression DeePhi sur CNN.

Pour créer une plate-forme commune, l'apprentissage machine et intégrer les processus existants

Bratt a dit que la machine actuelle ARM entreprise d'apprentissage avec 150 employés, à la demande croissante pour l'apprentissage de la machine, ce nombre continuera d'augmenter, et la machine à apprendre à intégrer dans de nouveaux et les flux de travail et les configurations existantes . Il a dit que notre objectif est de faire ce travail à travers une gamme de segments de marché, mais de fournir une plate-forme commune avec toutes les fonctionnalités dont ils ne doivent pas être aussi simple que d'une catégorie d'utilisateurs.

Aucune cache pour simplifier le processus de compression, une arithmétique mixte précision, et calcule sur des feuilles minces de SRAM combinée transplanté au moteur de produit scalaire supérieure dense, ce qui rend la puce ARM IP devient un marché attractif il met l'accent, et peut être affiné pour les charges de travail critiques.

AI par rapport à un certain processeur de but spécial, le processeur ARM augmente la mémoire à haut débit (HMC) peut le rendre plus facile à identifier, mais exige que l'utilisateur autorisé à comprendre comment ces éléments du système fonctionne ensemble. ARM ingénieurs de l'écosystème vraiment apprendre de la meilleure IA dans la technologie du processeur, et l'utilisation de crochets de logiciels open source, peuvent élargir considérablement la portée de la licence.

La figure montre le bloc 8X8 création V3, la compression sans perte sont mis en évidence par les résultats d'un procédé de filtrage de zéro / non nul réduit de manière significative la taille du réseau de neurones. La compression restent à l'intérieur de la SRAM, et conservés dans la technique la taille réseau de SRAM à utiliser en cas de besoin.

Sélectionnez cette option pour autoriser ce type de technologie est pas beaucoup, mais aussi pour déterminer ARM, qui a le plus de succès, des leçons aux technologies et composants existants dans le processeur de réseau de neurones.

Les liens de référence:

https://www.nextplatform.com/2018/08/22/arm-stands-on-shoulders-of-giants-with-first-generation-ai-processor/

Articles les plus populaires:

New Ji-won AI MONDE 2018 Assemblée générale compte à rebours 24 jour

Billets déjà en vente!

New Ji-won aura lieu le 20 Septembre AI Conférence mondiale des 2018 à Beijing National Convention Center, a invité l'apprentissage machine parrain, en mettant l'accent sur le professeur de l'intelligence artificielle à la CMU Tom Mitchell, Maike Mark Si-Tiger, Zhou Zhihua, un grand Cheng Tao, Chen Yiran AI et d'autres dirigeants et le destin de l'humanité.

Le site officiel de l'Assemblée générale:

  • Billets de ligne active lien:

  • billet de ligne active de code à deux dimensions:

Peu importe comment les pauvres, mais en tirant parti de la plus jeune de Voyage
Précédent
Suning à partir soudain, un grand Oolong! Yang Xiaotian erreur écrite Yang Jiawei, mais ne peut la volonté de poulet
Prochain
« Wandering la Terre » dynamitage dans le monde, mais le pays était « aigre » le!
Oncle Sam King James, ZTE a marqué le début dans le premier coordonnateur de la mission
Pas plus repairer PPT? Nouvelle-Zélande Wei du Nord à Nio EP9 de temps le plus rapide derrière l'histoire
Paris est préférable de manger de la nourriture chinoise, l'original est caché ici!
Aller une fois Xinjiang, plus de 15 Etats autour de la valeur de l'Europe!
Google et d'autres objets de segmentation d'image sémantique compréhension recours, PS ne sont plus un concepteur professionnel!
20 individuels petits camélias domestiques villages et villes anciennes, peuvent simplement choisir un pour passer quelques jours!
Maître! adorable bébé perdu dans le poste de police délicieuse boisson, le lendemain, « égaré » la
adversaires CR-V frissonner, mais à elle raisonnable regard trois questions
« Burst » Musc renoncer à la privatisation des anciens employés de Tesla exposer l'ombre!
Voir mot « Chongqing », de l'estomac comme un long trou noir!
CR-V citations de cas au point de croix nuit chaleur haute liste, sourire Geely Xiemei que je n'irais pas Cengceng