NPU Arm comment et le lieu profond

"

Les plus grands designers de SoC mobiles au fil des ans a été intégré dans son SoC dédié NPU en. Fin de l'année dernière, Arm a également apporté série Ethos NPU. Le mouvement est la dernière étape dans l'expansion de bras marché AI. La société de la nouvelle série Ethos NPU a introduit trois IPEthos-N37 initiales, Ethos-N57 et N77-Ethos. Les trois IP initial est conçu pour couvrir beaucoup d'équipement. Comme son nom l'indique, chaque fonction plus puissante que la précédente.

Trois NPU utilise le même micro-architecture à construire, mais la configuration légèrement différente, vous verrez plus tard. Arm figure ci-dessous représentent des diverses contraintes de visualisation et le marché NPU fonctionne.

Au bas de gamme est Ethos-N37, son objectif est de travailler avec le plus léger dispositif de charge, le pic des performances de calcul allant jusqu'à environ 1 TOPS, la DRAM nécessite peu de bande passante (environ 3 Go / s ou moins);

Ethos-N57 couvre les dispositifs plus complexes, tels que les appareils domestiques intelligents ainsi que certains des plus SoC des smartphones grand public. N57 est conçu pour avoir une largeur de bande de mémoire supérieur, et peut fournir environ deux performances TOPS;

Enfin, Ethos-N77. C'est la plus forte série de produits, l'objectif est la performance de marché jusqu'à 4 TOPS, et a une efficacité de puissance élevée d'environ 5 TOPS / W de. N77 conçu pour la conception et l'équipement principal mi-AR / VR, bien qu'il ait des améliorations de performances, mais vous avez encore plus de fonctionnalités puissantes. Afin d'obtenir des performances plus élevées, la bande passante mémoire plus élevée (la bande passante mémoire nécessaire 8 Go / s ou même plus).

Il est intéressant de noter qu'il ya beaucoup de chevauchement entre ces trois IP. N57 et N77 peuvent couvrir une partie supérieure de la plage de la moitié inférieure de la plage de N37. Même avec le N77. Cela donne un peu d'espace pour les concepteurs swing SoC, afin de pouvoir mener leur propre conception. Il est intéressant de noter qu'il ya beaucoup de chevauchement entre ces trois IP. N57 et N77 peuvent couvrir une partie supérieure de la plage de la moitié inférieure de la plage de N37. Même avec le N77. Cela donne un peu d'espace pour les concepteurs SoC, afin de pouvoir mener leur propre conception.

série Ethos est le noyau de processeur ML bras (MLP). MLP est propre (clean-sheet), inférieur (rez-de-up) microarchitecture, l'apprentissage machine pour l'accélération, en se concentrant sur CNN et RNN. MLP utilise en fait une conception très simple, qui est ce que nous attendons sera vendu aux concepteurs IP souhaités. Les principales composantes de la MLP est une unité de commande, le DMA, le réseau de radiodiffusion et le moteur de calcul. Vous avez sans doute deviné, l'action principale se déroule dans le moteur de calcul. Chaque groupe de quatre moteurs de calcul sont regroupées comme un « quad ». L'unité de commande calcule le moteur de coordonner l'ensemble et le moteur DMA effectue le réseau de neurones, le réseau de neurones apprennent DMA cartographie du moteur et de faire en sorte que les données arrivent en cas de besoin.

Nous pouvons mettre en uvre une variété de configurations à MLP. Les deux taille principale de la bibliothèque de SRAM de commande et le nombre de chacun des moteurs de calcul calcule moteur. Pour leur conception actuelle, MLP peut avoir une pluralité de quatre choisi parmi un noyau unique quad-core quad à un moteur de calcul unique pour calculer moteur avec seize autres. Chaque moteur de calcul, il possède une mémoire SRAM, pour stocker des caractéristiques d'entrée et de sortie et une masse de la Fig. Vous avez peut-être été configuré de 64 à 256 Kio Kio. Quelle que soit la configuration, l'unité de commande et DMA est toujours le même.

MLP configuration est complète sur Ethos N77 nature. Il comporte quatre quartes et un moteur de calcul 16, et possède deux SRAM configuration possible -: 64 KiB ou 256 KiB. De même, Ethos-N53 contient quatre quads, un total de huit moteurs de calcul. Chaque CE N53 avec une fixation 64 zone de mémoire SRAM KiB. Ethos-N37 est le plus faible rendement SKU, un seul quad, ne peut accueillir un total de quatre ont une bibliothèque de SRAM à capacité fixe 128 du moteur de calcul KiB.

Fait intéressant, les deux composants du moteur de calcul est la couche MAC moteur de calcul (MCE) et un moteur programmable (PLE). MCE comprenant fonction fixe unité MAC efficace, comprenant un système de vecteur PLE flexible et programmable. Le processus est relativement simple. tenseur d'activation d'entrée et le poids est transmis en même temps au MCE. Après calcul, les résultats sont transmis à d'autres opérations et PLE post-traitement peut être nécessaire. Pas de contrôle compliqué parce que beaucoup de contrôle au compilateur, le compilateur effectue de planification statique, la bibliothèque de SRAM de schémas pré-partition et de compression et de poids.

MCE est dans un groupe de huit unité MAC. Chaque unité MAC est large de 16 bits. En d'autres termes, chaque cycle de l'unité MAC 16 peut effectuer le produit scalaire 8 (opérations sur les produits de point). Dans l'ensemble, chaque moteur de calcul comporte 256 période de performance OP / pointe. Par ailleurs, l'opération ici sont larges de 8 bits, le cumulatif 32b. MLP ne permet pas le 16 bits, mais sera réduite de 4 fois (c.-à 64 par cycle OP) votre débit. Le tableau suivant la performance théorique maximale de chaque Ethos SKU. Bien sûr, la performance de la charge de travail réelle dépendra de l'utilisation de ces MAC. Il convient de noter que les trois SKU peut atteindre la même fréquence maximale 1 GHz.

Alors que le N77 est le plus élevé TOPS 4.1 TOPS, mais le SoC réelle n'atteint pas le niveau de performance requis. Au lieu de cela, plusieurs instances du MLP peuvent être intégrés dans le SoC, afin d'améliorer encore les performances. Ainsi, par exemple, au moins en théorie supporte l'utilisation de CCN-500 l'expansion d'interconnexion jusqu'à huit MLP, en utilisant le MCN-600 mesh à 100 mis à jour interconnexion extension MLP.

Dans MCE de plus, d'autres composants majeurs du moteur dans le moteur de calcul est une couche programmable (PLE). PLE est en fait plus puissant que le MCE, et parce qu'il est programmable et une plus grande flexibilité, l'original a été perdu dans la compétition malgré son efficacité énergétique lors de l'utilisation dans le traitement de millions de répétitions du MAC. PLE matures processeurs Cortex-M, dans lequel le vecteur contient également l'extension et NN. Cela signifie que Ethos-N77 dans le vecteur fusionné 16 types de processeur Cortex-M.

Il utilise le modèle de co-processeur dédié 16 canaux de conception de moteur de vecteur. PLE est principalement conçu pour le traitement MCE Après, quelques-unes des caractéristiques moins courantes. Mais parce que, en soi, est un puissant moteur vectoriel, donc il n'y a pas de cas ou MCE aide, il peut effectivement fonctionner directement sur la SRAM de données. programmabilité logicielle PLE de l'équipe Arm peut rapidement adapter aux nouveaux modèles et fonctions AI. La chaîne d'outils du compilateur offre également beaucoup d'autres l'optimisation moderne, nous attendons NPU peut faire. Étant donné que le compilateur avancera à la partition de SRAM, il effectue l'activation et la compression des poids, ce qui contribue à réduire légèrement la bande passante de la conception. En outre, optimisé pour sparsity léger. Le zéro d'échantillonnage de données de chemin d'accès, économisant ainsi le point d'alimentation.

A "Liangshan 108 Stars of Destiny" cartes à jouer
Précédent
ancien dessin de ligne de phase Bouddha Miao Chine Cartes (eds: Xu Hua clang)
Prochain
Glissez une chaleur de glissement de doigt du pays d'origine « run groupe bâtiment rouge » service de livraison de porte
Zhejiang (Chine) Académie des Beaux-Arts de la peinture version peinte « Sha Jia Bang » opéras modèles de très beau livre comique
Gardes rouges de défense histoire de bande dessinée « cent équipe de pistolet, » Wang Jianping et d'autres peints
"Original" Infineon IPW60R080P748 V 2 kW plomb-acide (lithium) solution de chargeur de batterie
Zhejiang Oriental Institut des Finances et le pouvoir des jeunes actifs Qingzhan ligne « peste »
Donc, l'extravagance! France Jeff Castilla "peintures Appréciation"
TI TIDA-010039 phase SiC AC-DC Converter Reference Design
« Nouvel An festif matériel » cents enfants bonne carte chance
Épidémie qui fait rage dans la capacité du marché mondial de la fibre à tenir
L'ancienne version de la bande dessinée, « le plan quinquennal à l'esprit, » Jason Jiang et d'autres peint
Arts martiaux histoire de bande dessinée « trace épée Batman » Part One (épée de parfum) peinture: le monde
Vous connaissez la Chine nouvelle en 1949, qui ont été publiés encore dans la bande dessinée?