Allez dans cette pièce à la technologie Web (NoC)

Cet article est reproduit à partir de: vieux noyau de pierre conférence publique Auteur: Dr. Huang Lotte (savoir presque ID: En fait, je suis le vieux KMT)

La technologie de réseau sur puce (Network-on-Chip) n'est pas une nouvelle « technologie noire », l'invention a été plus de vingt ans d'histoire. Avec l'acquisition d'Intel 2018 NoC fournisseurs IP Netspeed et 2019 NoC Facebook acquisition d'une autre société Sonics, sur puce technologie de réseau progressivement revenir à la scène une fois de plus. Pendant ce temps, comme décrit dans l'article précédent, les entreprises FPGA grand public commencent à utiliser la technologie pour construire un réseau de nouvelle génération sur puce puce FPGA.

Liés à la technologie de réseau sur puce introduite en deux parties:

Partie I: Développement du système à noyaux multiples sur puce NoC

Partie II: multi-curs système sur puce sous-système d'interconnexion

Suivant le texte:

Long a dit l'un des réseau sur puce: le développement des multi-curs système sur puce NoC

Vue d'ensemble du développement d'un système à noyaux multiples avec une puce sur puce réseau,

SoC appelé également un système sur puce, il se réfère à une seule puce pour mettre en uvre une puce électronique complète, même la plupart des fonctions du système. Cette puce est au cur des systèmes électroniques haut de gamme, avec le développement de la technologie de circuit intégré au développement progressif des systèmes électroniques bas de gamme. Aujourd'hui, beaucoup comme les montres, bracelets et comme les appareils portables et les jouets intelligents et autres appareils embarqués bas de gamme sont également à un système sur puce pour réaliser la conception comme le noyau. On peut dire qu'il est devenu un système sur un circuit intégré à puce, en particulier des circuits intégrés numériques pour réaliser la principale forme.

En raison du développement rapide de la technologie de circuit intégré tirée par la loi de Moore, le nombre de transistors par unité de surface augmente. La mise à l'échelle Dengna De (réduction de la zone du transistor de sorte que la tension et la consommation de courant dont il va diminuer à environ le même rapport. Autrement dit, si la taille de transistor est réduite de moitié même fréquence d'horloge, le transistor de puissance volonté jusqu'à un quart). Utilisez la nouvelle technologie de circuit intégré permet aux concepteurs d'augmenter considérablement la fréquence d'horloge de la puce, car plus de puissance augmentera la fréquence du transistor apporté mise à l'échelle compensée par une diminution de la consommation d'énergie, les performances de la puce peut compter sur l'horloge constamment mise à niveau augmenter la fréquence pour obtenir (bien sûr, mais aussi une architecture améliorée, comme l'utilisation accrue de la conception de transistors de plus en plus raisonnable cache). Une telle puce intégrée dans le plus lorsque les transistors pour améliorer la fréquence d'horloge de puce pour devenir un « repas gratuit. »

Et après 2005, les transistors miniatures dans une certaine mesure après l'effet tunnel quantique (voir se comporter comme l'électronique quantique et d'autres particules microscopiques peuvent pénétrer ou traverser la barrière de potentiel) a lentement commencé à intervenir pour que le phénomène de fuite du transistor a commencé sérieusement. phénomène de fuite semble enfreindre la loi de Deng Nade initialement proposé. Il suffit d'augmenter la fréquence d'horloge provoquera la consommation d'énergie de la puce est difficile à contrôler. En plus de l'augmentation de la consommation d'énergie de l'électricité plus coûteuse n'est pas respectueux de l'environnement, le plus gros problème causé par la consommation d'énergie accrue sera convertie en chaleur. Sur la surface de la puce minuscule emballé dense beaucoup d'énergie conduira à une augmentation de la température forte. Si la chaleur ne sont pas, la vie réduira considérablement la puce même devenir instable. Dans ce cas, augmenter la vitesse d'horloge de la puce n'est plus un repas gratuit. Avant de ne pas résoudre le problème des transistors de fuite, la fréquence d'horloge est augmentée simplement parce que les problèmes de refroidissement puce agent et n'est plus réaliste. Ainsi, les fabricants de puces ont commencé à étudier la puce à haute fréquence R & D ont arrêté, tourné vers l'architecture multi-core basse fréquence a commencé à étudier, mais avec un noyau de fréquence plus faible pour remplacer le noyau d'une haute fréquence. Cela comprend une pluralité de coeurs de processeur sur puce d'un système sur puce est un système à noyaux multiples.

Les 10 dernières années de circuits intégrés système-sur-puce multi-core numérique a été un champ chaud, de nombreux chercheurs à travers les efforts continus de la naissance d'un grand nombre de résultats de recherche significatifs. Réseau sur puce, la puce est essentiellement de résoudre le système multi-core, un problème de transmission de données entre le noyau et non-core (Un cur) entre les différentes unités de matériel de base « sur puce de communication » programme. Par conséquent, pour bien comprendre le contexte du développement du système sur puce, vous devez d'abord commencer par le développement du système sur puce multi-core. Ou un problème « inutile » et « éléphant » se produit. Cependant, en raison de différents milieux et chercheurs applications système sur puce multicur conduit au développement de l'évolution de plus complexe et difficile à comprendre. Quand en 2012 il a commencé à couper et où le rapport avec les réseaux équipe de recherche sur puce, en raison du système sur puce multi-core pour la compréhension est peu profonde, il y a eu de nombreux rebondissements conduit à la recherche et la détresse, entraînant plus d'un an dans la stagnation globale de l'étude.

Pour réduire ce problème pour nous tous de comprendre l'impact du réseau sur puce, comme le début de notre série d'articles, nous allons d'abord résumer l'évolution de l'histoire du cinéma et de la situation actuelle des systèmes multi-core. Ce qui nous permet de comprendre la force motrice du réseau, cette technologie apparaît sur puce, sur puce peut également voir pourquoi le réseau a stagné pendant des années.

Evolution deux lignes système à noyaux multiples sur le développement de puces

Le premier film commercial à être connu comme le système public est l'un des fameux fournisseur de puces de processeur multi-core pour PC, AMD a lancé l'unité centrale de traitement dual-core ATHLON X2 Central Processing Unit (CPU), CPU paragraphe sur grand commerciale succès. Depuis la commercialisation de la recherche et sur la puce des systèmes multi-core commencer apogée. En 2005, Intel a publié un processeur dual-core 64 bits Montecito et le processeur Cell d'IBM a publié neuf noyau de . Après 10 ans, un système sur puce multiconducteur en grandes quantités à appliquer aux différentes infrastructures de l'information, des dispositifs électroniques de haute performance deviennent le noyau du dispositif.

Mais en fait puce de recherche multi-core sur le système a commencé dans les années 90 du milieu du siècle dernier, au cours des 20 dernières années dans une architecture à puce multi-core est en développement constant et l'évolution. En raison des différentes applications de fond universitaires et aux chercheurs d'étudier les systèmes multi-core sur puce dès le début, il y a un « genre » clair des points. Avec l'étude continue approfondie de la technologie système sur puce multi-core apparaît branches de plus en plus. Cela permettra non seulement il est difficile d'identifier la majorité des melons pour le peuple, pour les étudiants de maîtrise et de doctorat grades sur puce système multi-core nouvelle à beaucoup de recherches en termes de déterminer la différence et la connexion de ces technologies branches également pas une tâche facile.

En termes simples, un système sur puce multi-core en raison de différentes origines, différentes applications et différents milieux universitaires et chercheurs d'autres raisons, le développement de différents parcours technique. Mentionné ci-dessus l'annonce d'Intel d'un processeur Montecito et le processeur Cell d'IBM publié au nom de deux de l'itinéraire le plus technique.

Sur ce type de puce du processeur Montecito système multitraitement du système Symmetric Multi-Processing système (SMP), appelé Chip multiprocesseurs (CMP) (généralement domestique traduit par une seule puce multiprocesseur), principalement pour haute performance informatique à usage général . puce de processeur de cellule sur ce type de système sur une puce par le système multi-core SystemOn-puce (SoC) évolué, connu sous le nom SystemOn puce multi-processeurs (MPSoC). Un tel système sur puce multi-core principalement en tant que processeurs embarqués haut de gamme sont utilisés dans les communications, le traitement du signal, le traitement multimédia. Pour la commodité de la rédaction, ci-après CMP et directement utilisé pour désigner les deux types de processeur MPSoC.

Une architecture CMP-on-chip est généralement appliqué sur les postes de travail du système multi-core, des serveurs, et autre plate-forme informatique en nuage, un dispositif informatique à usage général, l'application principale fonctionne normalement le calcul scientifique, simulation grande quantité de données représentée par un objet général de calcul. De tels systèmes sur puce multi-core utiliser le mode de programmation parallèle-parallèle des données, la mémoire partagée selon les données d'échange. Ceci a l'avantage que faible effort de développement et de meilleures procédures générales, peuvent emprunter la même OpenMP c'est plus mature modèle de programmation parallèle à développer. En outre, parce que le calcul scientifique, les caractéristiques de simulation de telles applications sont généralement de grande quantité de données, mais le programme de base est en cours d'exécution sur un processeur différent est souvent le même. Par conséquent manière en utilisant la mémoire partagée peut entraîner la pluralité de coeurs de processeur peut facilement partager le même espace d'adressage virtuel, ce qui permet le même programme à exécuter sur un noyau différent, il peut facilement partager le même système d'exploitation ou facilement tout en programme de gestion.

Hydra est un processeur développé en 1996, l'Université de Stanford intègre quatre processeurs de noyau , qui est considéré comme la première avec la nature des systèmes CMP multicurs sur puce.

La figure la figure 1 l'architecture du processeur Hydra, il est considéré comme le premier système à noyaux multiples sur puce comprend un propriétés CMP

Hydra processeur MIPS en utilisant quatre coeurs de traitement, chaque noyau a une mémoire cache d'instructions privée (I-Cache) et un cache de données (D-Cache). Deux à quatre noyau cache partagée, un contrôleur de mémoire à travers le noyau lui-même (contrôleur de mémoire, MC), et un ensemble de bus et la mémoire cache secondaire (L2), une interface de mémoire principale (Interface mémoire principale) d'entrée d'interface de bus et de sortie (I / O Interface Bus) d'interconnexion. Etant donné que le cache secondaire est partagé sur la puce par quatre noyau, donc le noyau comprenant essentiellement quatre espace d'adressage de mémoire logique unique. Il fait également partager le même système d'exploitation ou hyperviseur possible. processeur Hydra a jeté les bases pour le développement ultérieur du système d'architecture de puce CMP multicoeur, architecture multi-curs sur puce de ce système est toujours affecté par l'évolution ultérieure de la conception initiale processeur Hydra.

Le représentant principal de la naissance précoce sont quelques-uns MPSoC intégrer des processeurs de signaux numériques (processeur de signal numérique DSP) et microprocesseur (unité microprocesseur MPU) de l'ASIC. Ces puces sont principalement utilisés dans la télévision numérique, les lecteurs multimédias et d'autres équipements de traitement du signal. Contrairement à la poursuite de la haute performance à usage général de calcul, le principal problème des domaines d'application principaux sont MPSoC l'informatique en temps réel. Comme les tâches informatiques plus de certitude que les concepteurs MPSoC et les utilisateurs peuvent et doivent être une répartition précise des tâches et la répartition rationnelle des tâches à faire face à différents défis.

Processeur de vipère représenté sur la. figure 2, une de est le premier MPSoC par lots.

La figure 2 diagramme d'architecture de processeur Viper, qui est un représentant du début MPSoC

Comme on peut le voir sur la figure 2, la puce entière peut être divisée en deux sous-systèmes indépendants. Respectivement CPU et coeur de CPU TriMedia (TM32) MIPS (PR3940). Compte tenu de la partie gauche du MIPS (PR3940) sous-système de noyau d'unité centrale, cette architecture de sous-système est similaire à une partie du courant intégré puce sur puce, par exemple intégré UART, IEEE 1394 ou similaire du module d'interface de contrôleur de protocole. Dans la vue de côté droit du coeur de CPU TriMedia (TM32) intégré décodeur vidéo MPEG-2 dans ce sous-système, une unité de traitement multimédia de processeur d'entrée vidéo, sensiblement composé d'un processeur multimédia dédié. Il peut être clairement déterminé que le processeur de vipère MIPS (PR3940) les fonctions de base de l'unité centrale d'un sous-système de processeur à usage général est responsable du contrôle et de transmission de données, et pour MIPS (PR3940) noyau d'unité centrale est principalement responsable de sous-système multimédia le traitement du signal. Deux sous-systèmes indépendants par Fast C-Pont, MIPS C-pont et trois pont de bus C-pont reliés les uns aux autres.

l'architecture du processeur Viper reflète clairement les caractéristiques typiques de MPSoC: en fonction des besoins de la mission sont divisés en plusieurs sous-systèmes indépendants, chacun rempli une fonction spécialisée, l'indépendance relative entre les sous-systèmes. Cette approche de conception de l'architecture incarne pleinement les caractéristiques des systèmes embarqués, il a été hérité et reporté les chercheurs plus tard.

Système multi-core sur puce RAW est la génération d'un point de repère. Bien qu'il ait été publié en 1997, mais il a jeté le cadre de base pour les 20 prochaines années l'interconnexion des réseaux sur puce de la CMP.

Figure 3 pour la première fois la structure de tuile et le réseau d'interconnexion des puces d'architecture CMP: RAW

RAW proposé par l'Institut de technologie du Massachusetts en 1997 et scotchée (De là, vous pouvez voir que les Etats-Unis est un riche patrimoine de puces de système haut de gamme, nous rappelons le niveau de la conception de puces en 1997 vient seulement de pouvoir entrer dans les outils EDA processus avec eux, a commencé à faire le niveau ASIC. conception de puces de processeur Godson, un grand nombre doivent attendre la fin 2000).

architecture microprocesseur RAW utilise de manière division modulaire est appelée une tuile (littérature en intérieur, il y a littéralement des tuiles, afin d'éviter toute ambiguïté à la fois utilisé ici pour se référer à l'original en anglais) est. De cette façon est la CPU, Cache privé (L1 Cache), partagent un cache banque (L2 Cache) est (ne sais pas comment traduire cette ......), interface réseau (réseau d'interface NI) des ressources matérielles comme un bâtiment séparé carrelage. Bien rangés selon certaines règles dans le plan de la puce à différentes planification de la tuile, et être reliés entre tuile par NoC. Carreau et en utilisant ces diviser la manière de pièce de tissu du système à plusieurs noyaux que l'avantage comparatif de chaque puce structurée, de faciliter la conception et arrière ont une meilleure évolutivité. Depuis lors, bien qu'il y ait une certaine division des documents de base et de l'organisation d'autres formes de publication, mais toujours absolument certains chercheurs (trolls) hérité basée sur la division et de l'organisation de carreaux.

Ensuite, un coup d'oeil à relativement près du point puce architecture CMP système à noyaux multiples, le processeur SPARC M7 noyau 32 . Posté le 2015 ISSCC.

la figure processeur SPARC M7 noyau 432 de la structure logique de la Fig.

Le processeur dispose de 32 noyaux, chacun des quatre composants de base d'un groupe (article intitulé SCC), un total de huit groupes. Chaque jeu interne de cache L2 partagé, mais d'autres groupes ne peuvent pas accéder. L3 Cache est un cache global partagé, accessible par tous tous le cur. Cache L3 est également divisé en huit banque séparé, et correspondant à chaque groupe étant constitué d'un ensemble complet de tuiles.

Pour efficacement l'interconnexion de carreaux de différents chercheurs conçus sur trois morceaux différents de processeur de réseau SPARC M7. Respectivement, en utilisant l'anneau de réseau demandant structure (Ring) (Demande de réseau), en utilisant un réseau de diffusion en réponse structure (radiodiffusion) (Les réponses du réseau) et l'utilisation de la maille (maillage) des données de structure de réseau (réseau de données). réseaux sur puce sont différentes transmettent différentes données et informations de contrôle, de sorte que l'accès au cache peut maximiser l'efficacité.

Une fois le réseau sur les interconnexions de puce devenir la voie dominante de l'architecture système sur puce multi-core CMP, l'organisation du cache sur puce en conséquence changé. Dans les jours de la matrice de commutation ou le bus, le temps d'accès du processeur est différente de la Banque cache est resté le même. Mais après avoir utilisé l'Internet comme une interconnexion sur puce, différents temps d'accès CPU Cache Bank a été impossible de garder l'accord. Ainsi, le concept est appelé une architecture de cache non uniforme (Cache Architecture non Uniform, NUCA) ont été proposées. NUCA est basé sur le problème de la CMP-puce multi-core système sur puce réseau qui est lié à face, mais a également contribué à l'étude de NUMA basée CMP sur puce continue l'évolution du réseau système sur puce multi-core avant. Amélioration de l'efficacité d'accès mémoire architecture de la puce CMP NUMA système multitraitement dans des conditions, mais est aussi un moyen d'améliorer les performances du système multi-core sur l'architecture de la puce CMP. Étant donné que cette partie de l'étude sur la structure du grand système de stockage est dans un autre domaine de la recherche en architecture du système informatique. Même au-delà de la portée de cet article dans cette série a discuté, et ne sont donc pas encore discuter.

Bien sûr, toute l'architecture de la puce CMP multicurs du système depuis lors engagé sur la voie de compter interconnexion NoC. Lorsque le petit nombre de curs quand vraiment pas besoin d'envisager l'utilisation de NoC. Tels que le Zen d'AMD est pas possible de compter NoC tandis que l'utilisation de l'Internet appelé Complexe de base (CCX) de .

5 CCX interconnectés à l'aide Zen figure, ont encore les caractéristiques de base de l'architecture CMP

Comme on peut le voir sur la figure 5, Zen Bien que le noyau est relativement faible, mais une architecture typique CMP.

J'ai eu une longue discussion de la CMP, nous revenons à regarder MPSoC. Par rapport à la CMP régulière, l'architecture symétrique, le MPSoC est composé de plusieurs sous-systèmes indépendants de celui-ci. La figure 6 est Intel a publié à des robots ISSCC de cette année pour Robot SoC .

La figure 6 est un robot pour robot SoC, architecture typique MPSoC

Sur la figure 6, il existe plusieurs sous-systèmes. Le premier est un processeur X86 gauche comme le sous-système à temps réel noyau, est responsable du contrôle de l'interface externe pour communiquer avec, et ainsi de SPI, I2C et une autre interface périphérique est divisé en ensemble. Tensilica DSP est un sous-système de traitement du signal est responsable des opérations. Toujours sur un sous-système est normalement ouvert, est responsable du traitement du côté audio, il doit être utilisé pour réveiller la puce. Il y a la planification de chemin d'accélérateur matériel, accélérateur matériel de contrôle de mouvement avec CNN et une série d'accélérateur et accéléré par le sous-système d'application processeur X86 pour la mise en uvre des algorithmes d'intelligence artificielle.

La figure 7 est un robot SoC algorithme est mis en uvre, il peut être vu par une pluralité de configuration de la tâche indépendante. Cette forme d'application est plus facilement divisée en plusieurs sous-systèmes indépendants. Ceci est également caractéristiques de base MPSoC des principaux domaines d'application dans une variété d'algorithmes.

La figure 7 algorithmes robot nécessaires pour atteindre SoC

Si les sous-systèmes de puces internes sont relation plus complexe, bien sûr, vous pouvez compter sur l'interconnexion NoC. Par exemple, la société avait été acquise par les sonics a donné un tel exemple .

Application de la puce à haute performance de. La figure 8 Sonics donnée par le réseau de l'entreprise dans le SoC

Comme on peut le voir, il existe de multiples sous-systèmes indépendants MPSoC, l'on-chip sur le réseau est un élément nécessaire de la communication.

épilogue

Enfin, nous résumons un peu:

  • Le système multi-core sur puce est maintenant la réalisation principale du circuit intégré au niveau du système;

  • Le système multi-core sur puce est divisé en deux architectures CMP et MPSoC;

  • CMP mode de réalisation est principalement utilisé pour le calcul d'usage général, ils utilisent un mode de programmation parallèle-parallèle des données, la mémoire partagée pour échanger des données, la forme généralement symétrique configuration matérielle tissu de puces à ADN de carreaux;

  • MPSoC principalement pour les appareils embarqués, principalement composés d'une pluralité de sous-systèmes indépendants, généralement « à la demande », conception structure même asymétrique.

  • La première vient ici, les prochaines discussions sur la nécessité d'interconnecter différents systèmes multi-core sur puce. Parlez aussi sur la façon de développer le système sur puce multi-core sur puce pour guider le développement du réseau.

    Détails dudit deuxième réseau sur puce: multi-curs système sur puce sous-système d'interconnexion

    Dans la première partie, nous avons clairement expliqué, et sur puce système multi-core est divisé en CMP et MPSoC deux architectures. l'architecture CMP dispose est l'utilisation de la mémoire partagée aux données d'échange, autrement dit, chaque coeur peut réellement « voir » l'ensemble de l'espace d'adressage. MPSoC plus à la pluralité de sous-systèmes indépendants intégrés sur une seule puce, est généralement stocké dans un espace entre « la conception de la demande », une pluralité de systèmes sont généralement pas visible à l'autre.

    Donc, pour CMP, il peut être grossièrement divisé en une unité centrale de traitement / sous-système de mémoire et une unité de traitement en deux parties. Le processus de l'ensemble du système est plus noyau pour exécuter plusieurs programmes sur un espace de mémoire partagé. Étant donné que l'espace du programme est partagé, de sorte que le programme peut être programmé librement entre une pluralité du noyau, l'échange de données entre différents services de base est relativement facile. Pour que le processus d'échange de données peut être comprise comme unité CPU / processeur de données échangées entre la mémoire partagée et la mémoire privée / remplacement du cache ligne.

    Si ce processus est extrait, vous pouvez voir ci-dessous ce chiffre.

    La figure 1 est basé sur le système de NoC de l'abstraction de l'architecture logique de la puce multicoeur CMP de

    Comme on peut le voir sur la figure 1 LLC (dernier niveau du cache) peut être divisée en plusieurs banques, mais la région logiquement partagée est terminée. Et chacun des Core cache L1 est indépendant de l'autre, on peut voir que l'exécution d'applications ou de processus différents sur différents noyaux.

    L'échange de données entre les différents niveaux de la mémoire représentée sur la figure.

    L'échange de données entre les différents niveaux de la mémoire de la figure.

    Comme on peut le voir sur la figure 2, pour remplacer l'ensemble de la relation d'échange de données avec la mémoire cache. Lorsque cache Mlle se produit, L1 va chercher des données dans la LLC. Lorsque la LLC est également miss, la mémoire externe à la puce par l'intermédiaire du contrôleur de mémoire d'extraction de données (mémoire). Ainsi, alors que le programme fonctionne, en fait, nous continuerons en raison du comportement précédent d'accès mémoire cache de Mlle généré se produit. Et quand, en raison LLC est partagée, de sorte que chaque noyau peut accéder à l'exécution de toute la LLC. Cela crée un problème de conflits d'accès.

    Si nous voulons liaisons entre les divers bus et Core LLC, le bus lui-même est devenu une ressource compétitive. Et si nous utilisons un réseau sur puce et Internet de base LLC, sera violation d'accès en grande partie la digestion. Ainsi, l'architecture du système CMP pour une puce multi-core, le but est d'utiliser violation d'accès de digestion NoC. Et aussi en raison des protocoles de cohérence du cache produit beaucoup de trafic en cours d'exécution sur le NoC. Ainsi, dans une architecture de système multi-core feuille CMP et NoC cache généralement considéré comme ensemble la conception collaborative et l'optimisation, collectivement appelés « Un système-Core ».

    Une analyse plus approfondie peut être trouvée, après l'utilisation d'interconnexion NoC, les contrôleurs de mémoire deviendront une des ressources « concurrentiels ». Banque Mlle se produit après chaque LLC a besoin d'un accès mémoire hors puce externe à travers elle. Par conséquent, afin d'améliorer la conception de la pluralité d'exigences de bande passante d'accès à la mémoire et la puce de contrôleur de mémoire de dessin pour transmettre une pluralité de canaux de données.

    l'architecture figure CMP sur la feuille 3 et le système de base l'interface des options de connectivité IP

    Comme on le voit dans la fig. 3 , quatre contrôleur DDR2 dans la puce. Chaque DDR2 plus d'une puce contrôleur et les noeuds de réseau. D'autres, comme le contrôleur PCIe Ethernet est une connexion similaire.

    Dans l'ensemble, la CMP en présence d'un grand nombre de ressources partagées, l'utilisation de NoC atteindre l'objectif fondamental de l'interconnexion sur puce est possible digestion, violation d'accès facilité aux ressources partagées. NoC et doivent donc être considérés ensemble comme « Un système-core » co-optimisation de ces ressources.

    interconnexion MPSoC en plus comme une pluralité de sous-systèmes interconnectés par une forme de bande. abstraite particulière comme indiqué ci-dessous:

    La figure 4 NoC sur la base de l'architecture du système d'une abstraction de MPSoCP logique à puce multi-core de

    Comme on peut le voir sur la Fig. 4, le réseau d'interconnexion sur puce MPSoC chaque élément de traitement (PE) est relativement sous-systèmes indépendants. section de stockage ne communique pas entre les différents sous-systèmes en général, pas un espace de stockage partagé pour stocker et partager des données des programmes parallèles. Chaque sous-système de fonctionner indépendamment, effectuer chaque différentes tâches. Une fois que les données ont été traitées, il est envoyé aux prochains besoins de nud pour continuer le traitement par l'intermédiaire d'un réseau.

    La figure 5 est une affaire pratique sur la base du système de NoC de la feuille de MPSoCP architecture multi-core

    Si elle est trop abstraite aussi. La figure 4, puis 5 est un exemple spécifique de la figure. Ceci est un MPSoC pour la communication sans fil, comportant une pluralité d'unités de traitement et des circuits dédiés travailler de façon autonome. Au sein de chaque cellule est un processeur RISC, DSP +. En programmant ces PE, il peut soutenir de façon flexible le protocole de traitement de communication sans fil multiples. L'utilisation de but NoC est d'accroître la flexibilité et réduire la complexité des interconnectés reliés entre eux.

    Il existe une méthode de conception pour un système basé sur l'architecture NoC MPSoCP puce multicoeur, appelée la méthode de cartographie sur la tâche de la figure. Il est essentiellement nécessaire pour compléter le système est divisé en un grand nombre de tâches et dépendances entre le trafic et les tâches représentées sous la forme de la figure. processus de conception MPSoC, peut être vu dans les tâches assignées figure à un processus de travail de l'unité de traitement correspondant. 6 représenté sur la figure.

    La figure 6 est une carte schématique de la Fig.

    En ajustant la position plus souple tâche dans le système peut être mis en correspondance, et donc jouer un rôle dans la réduction du trafic et des conflits.

    Dans la phase de conception de la mise en uvre, la cartographie est appelée une carte statique. Les deux tâches et PE statique, la sortie finale correspondante est une conception de MPSoC dédié. NoC correspondant peut également être personnalisée optimisation. Mappée pendant la phase de fonctionnement est appelée le mappage dynamique, l'application est supposé que les modules individuels sont communs à PE. Cartographie dynamique fait moins fréquente dans les applications réelles, mais il est la recherche universitaire « habitués ». Parce que la recherche « légère » peut être atteint par cette méthode, la situation pas trop intense peut obtenir une « recherche ».

    Bien sûr, maintenant il est vraiment le processeur, CMP et deux architectures MPSoC coexistent en fait. Ainsi Arteris support sensiblement simultanément les deux formes de fusion NoC réseau, modes de réalisation spécifiques, comme indiqué sur la Fig.

    L'intégration des deux exigences d'architecture d'interconnexion de la figure 7 Arteris données par la société

    Figure 7 ncore Cache Coherent Interconnect est interconnecté avec le protocole cache de cohérence, nous pouvons voir c'est un sous-système d'infrastructure CMP très importante. Et FlexNoC sous-système non-cohérent d'interconnexion périphérique est utilisé pour les systèmes d'interconnexion ou accélérateur de plusieurs indépendants.

    Cliquez ici pour lire le numéro d'origine pour voir l'industrie des semi-conducteurs, le public pertinent quoi?

    Moins de 50000 voitures à forte valeur Yen joint-venture, la puissance générale, mais l'économie de carburant est grave
    Précédent
    Tesla ajustements de prix le plus élevé baisse 33100 yuans / perle standard peinture blanche
    Prochain
    Volkswagen Lavida a remporté le champion des ventes Juin, le propriétaire dit de son
    Comment faire face à une nouvelle caractérisation des matériaux des défis de test des semi-conducteurs? (Séminaire: Guangzhou / Xiamen)
    Ne pas prêter attention à conduire ces points, la probabilité de l'été sera grandement améliorée ponction
    Principal a secrètement Jiancang! Est-ce que vous vendez encore? Que vous ne pouvez même pas « carte de temps » des 8 grandes compétences ne comprennent toujours pas, facile à saisir avec le village
    Comme l'apparition de « petits sons de la nature » / nouveau moteur prendre Sylphy 1.6L sera disponible ce soir
    Le plus haut état des stocks: un stock pour atteindre le nec plus ultra! Répéte-et-vient tous les jours pour faire T, 800% folie de profit direct, appelé l'histoire secrète des premiers stocks
    26 juin | V-RISC opportunités de l'industrie des semi-conducteurs et Forum application R & D
    180.000 ventes pour obtenir de gros, grand canapé siège est très confortable, mais pneu à grande vitesse du bruit un peu gros
    Le trafic mortalité des accidents et corps liés? Corps gras accident du conducteur, le taux de mortalité le plus élevé
    Shanghai et Shenzhen marchés boursiers dans la plupart des « profiteurs » tactiques - les premières femmes d'actions de premier plan, trois mois entourant le principal 30 millions, choqué tout le sec
    troisième plus grande préoccupation les événements sportifs du monde parrainées par Skoda 16e Tour de France
    premiers visiteurs à court terme de la Chine: « carte du temps » les opérations à court terme est le Saint-Graal, a gagné 1 année 200003000000