conception de processeur de réseau reconfigurable Distributed Cache

Avec le développement rapide de la technologie de circuit, l'intelligence artificielle, de nouvelles applications émergentes, processeur reconfigurable à la fois un processeur à usage général (processeur à usage général, PPB) flexibilité et ASIC (Application Specific Integrated Circuit , ASIC) puissance de calcul, qui deviennent progressivement une des applications intensives de recherche à chaud. Extraction de données de navire reconfigurable telle que la présente de masse une grave pénurie de bande passante mémoire , afin de rechercher pour résoudre la bande passante d'une grave pénurie de la structure de stockage est la clé pour améliorer la performance globale du système.

Pour résoudre ce problème, les concepteurs couramment utilisé la technologie Cache, dans laquelle le document plates-formes matérielles CGRA, la structure de mémoire à l'aide d'un partage de données du cache, cette configuration différence de parallélisme de données, la structure FPCA CONG J et al en augmentant la une part capacité de cache pour améliorer le taux de succès document utilise également une grande capacité sur puce partagée Cache à récupérer, une telle grande capacité structure de cache permet non seulement la zone de l'ensemble du système augmente et le parallélisme d'accès à la mémoire est toujours pas élevé . La pluralité ci-dessus de processeurs partagent un seul contrôle l'espace cache de telles projections concurrentielles , l'augmentation de retard. . GALANIS MD et al, qui propose un chemin de données reconfigurable, la structure de partage de mémoire à l'aide d'un partage de deux Cache Cache et pour améliorer la vitesse d'accès mémoire , les données WaveScalar flux architectural, Université de Toronto SWANSON S et al proposé, sur la puce de l'unité de mémoire en utilisant seulement une donnée partagée et instruction Cache Cache ; processeur adaptatif dynamique SOUZA JD et al, l'utilisation de deux cellules de mémoire partageant Cache encore être atteint, dans lequel les données et les instructions dans une mémoire cache. cache . Document de distribué sur puce buffer conçu pour améliorer l'efficacité d'accès aux données, mais encore interagir avec la mémoire externe en utilisant la technologie du cache partagé. Cache ou plusieurs multi-niveaux partagés caractéristiques structurelles et sans tenir compte des exigences de parallélisme données de lieu de telle sorte que la différence de parallélisme d'accès en mémoire, le débit est très réduite.

Pour la récupération des données de quantité processeur reconfigurable est grande, les exigences de données élevées et le parallélisme des données moins réutilisables globale, locale apparente, ce document propose un « physiquement distribué logiquement unifié » cache distribué architecture. Le processeur de réseau reconfigurable et Cache Cache à distance locale a lu et accès en écriture, l'accès local prioritaire Cache Cache haut à distance indexé par une destination se classe barre transversale efficace, lors de l'interaction avec une mémoire externe, la conception roue après l'arbitrage arbitrage de consultation un moyen de signaler pour la transmission de données via un routeur, et enfin tester la conception à Virtex-6 conseil de développement de xc6vlx550T de famille de Xilinx, les résultats expérimentaux montrent que la structure tout en conservant la simplicité et l'évolutivité, le plus en mesure de fournir 10,512 Go / s de bande passante d'accès mémoire pour répondre à l'accès à la mémoire processeur reconfigurable demande.

Un processeur à réseau reconfigurable architecture distribuée Cache

configuration réseau reconfigurable est utilisé ici, un groupe de processeurs de réseau est constitué de 4 x 4 consistant en PE (Processing Element Group, PEG), chacune des données d'accès à la mémoire de PE largeur de 32 bits, ce qui est distribué sous forme de cache d'architecture comme représenté sur la. figure 1, un cache (cache), et un adaptateur de réseau arbitre composition des sondages. Chaque PE a laquelle un cache local, un total de 16, 16 qui cache l'architecture physique distribué logiquement unifié. Chaque PE est accessible uniquement par le cache local se classe commutateur crossbar efficace peut également utiliser le cache à distance. En l'absence de conflit, lorsqu'un accès cache PE local, la plus haute priorité, une fois le cache local a frappé, les données sont immédiatement retourné à la PE demande, en cas de choc, un signal nécessite un arbitrage par vote par l'arbitre de routeur de canal virtuel VCR0901 communiquer avec une mémoire externe; cache lors de l'accès à distance PE, PE besoin d'être indexé par l'objet de la barre transversale de la ligne, complétant ainsi le fonctionnement de la mémoire cache éloigné. Dans le cas de l'opération locale et à distance des conflits, la priorité d'accès local, suivi par les commentaires de demande à distance correcte. Processeur reconfigurable Cache architecture répartition PE 16 peut simultanément lire et écrire dans la mémoire cache locale en l'absence de violation d'accès, la bande passante d'accès réparti de mémoire cache de la structure en pointe.

1.1 Conception Cache

Cache a surtout frappé par l'unité de détermination (Juge), unité de registre de drapeau (de tag_index), l'unité de registre d'état (état), la politique de remplacement de l'unité d'écriture (wr_strategy) et l'unité de stockage de données cache (Cache_data), comme le montre la figure.

(1) un moyen de détermination: l'unité de réception est principalement utilisé pour la lecture et des signaux d'écriture de la PE, l'unité de stockage d'informations de drapeau en fonction du drapeau de lecture d'information d'adresse, et détermine ensuite, et délivre en sortie un résultat d'écriture dans l'unité d'information;

(2) Stockage Drapeau Unité: Cette unité est principalement utilisé pour les drapeaux et les informations d'index des données enregistrées et mises à jour en temps réel en fonction des informations unité de stockage de données cache;

(3) unité de registre d'état: Cette unité est principalement utilisé pour un peu de sale et d'informations de bit valide des données enregistrées et mises à jour en temps réel en fonction des informations unité de stockage de données cache;

(4) Remplacer l'unité de stratégie d'écriture: le moins récemment unité prévue à une stratégie alternative à la ligne de cache, et si l'unité d'interprétation de l'information enregistrée à une mémoire externe en fonction de données d'écriture à l'état;

(5) unité de stockage de données du cache: la principale politique de ré-écriture des utilisations de l'unité interagit avec la mémoire externe par l'intermédiaire de l'itinéraire.

1.2 arbitre de vote de la conception

Lorsque la miss cache distribué, émission lu ou un signal d'accès en écriture à l'arbitre, l'arbitre par l'intermédiaire mécanisme d'interrogation d'arbitrage délivre un signal de réglage sur l'adaptateur de réseau, le schéma de configuration de vote de l'arbitre représenté sur la figure 3.

1.3 Conception de la carte réseau

Réseau est une carte d'interface de réseau pour la communication entre le PE et la mémoire externe, emballage et de déballage pour le fonctionnement du routeur en conformité avec le format de l'information de communication, le format de paquet tel que représenté sur la Fig.

Un module d'adaptateur de réseau par les données d'écriture et de lecture des modules de données, la structure de niveau supérieur, comme indiqué sur la Fig.

2 politiques d'accès parallèles basées sur le cache distribué

Pour les processeurs reconfigurable, l'échange d'informations au sein du groupe placé par la barre transversale rangs, l'interaction de l'information entre les clusters transmis par le routeur après l'arbitrage du scrutin.

procédure d'accès lecture PE représenté sur la figure. 6, lorsqu'une questions de PE une requête de lecture, si les informations d'adresse de lecture est déterminée par le cache local, dans lequel la plus haute priorité pour lire le cache local. Si la lecture à distance du cache, dans les rangs de la barre transversale pour localiser la position du groupe de PE, l'adresse de lecture et le drapeau bit Cache de comparaison, si le coup de lecture, dans les rangs de la barre transversale de données directement lues renvoyées à la demande PE, sinon lire a frappé et frappé invalide la ligne, la route à travers les blocs de données mémoire externe se déplacent vers le cache, les données opération de lecture, si la miss de lecture et appuyez sur la ligne est valide, selon la stratégie principale algorithme de remplacement a récemment utilisé le plus ancien et reprise déplacer le bloc de données stocké, et enfin les données lues renvoyées au demandeur PE par la barre transversale. processeurs reconfigurable PE 16 peut effectuer simultanément le cache des opérations de lecture ci-dessus. PE accès en écriture et une opération d'accès en lecture est similaire au procédé, comme représenté sur la Fig.

3 Simulation et analyse de performance

3.1 Simulation de conception

Après l'étape de la conception RTL à l'unité de cache, et les sondages d'arbiter l'accès basé sur les politiques carte réseau Cache distribué par le test d'excitation accès en écriture plusieurs cas typiques, Questsim simulation fonctionnelle, le processeur reconfigurable routeur de canal virtuel, le processeur de lumière centrale et une mémoire Xilinx interconnexion IP sur mesure, la conception du matériel testé par Virtex-6 carte de développement xc6vlx550T de la famille de Xilinx, les paramètres spécifiques, comme indiqué dans le tableau 1.

Le nombre minimum de cycles de retard généralement lorsqu'un accès aux données La figure 9 montre la violation d'accès local et à distance,. Généralement le nombre minimum de cycles de retard, sans accès aux données conflit Figure 8 montre l'accès local et distant.

Comme on peut le voir sur la figure. 8, dans le cas où il n'y a pas de concurrence, un accès au cache de retard à distance cycles d'horloge que le cache local. Vu de. La figure 9, lorsque l'accès local et distant à la fois du cache local, depuis la mémoire cache locale priorité élevée, de sorte que la première requête en réponse à l'activation du cache local, une demande distante répond après un retard de 4 cycles d'horloge.

3.2 Analyse des performances

La conception intégrée par Xilinx ISE14.7, le composant sélectionne xc6vlx550T intégré, les implémentations distribuées Cache peut atteindre une fréquence de fonctionnement maximum de 164,249 MHz, le dispositif spécifique la consommation de ressources, comme indiqué dans le tableau 2.

Document conception d'une architecture partagée distribuée cache et cache, et donne l'accès moyen et distribué à partager Cache Cache Cache localement et à distance de retard cache, et le tableau 3 présente le document Structure d'accès moyen les résultats de la comparaison retardée.

À partir du tableau 3, l'accès moyen de cet article dans le pire des cas (par exemple d'accès à distance lorsque le conflit) est retardée par rapport au cache partagé, encore diminué, quand l'accès au cache local, la latence d'accès de cette légère augmentation est due en lorsqu'il est frappé, le routeur d'accès grand retard causé, lors de l'accès au cache à distance, le délai d'accès moyen est nettement plus faible par rapport à la littérature réduit de 30%.

Cache distribué ici important coût du matériel peut être calculé en (T + S) × N × L × P , dans lequel, T, S, respectivement des bits drapeaux et les bits d'état sont occupés; N représente le Cache le nombre de groupes; W est représenté par l'associativité du cache; P représente le nombre de coeurs de processeur. Chaque noyau de processeur correspondant au coût du matériel du cache est calculée selon la formule de 1,6 kb, la capacité du cache de 5% seulement de la puce.

4 Conclusion

processeur reconfigurable pour un accès et un stock important de l'extraction mondiale réutilisable moins, les caractéristiques locales importantes, la conception et la mise en uvre d'une architecture de cache distribué, dans laquelle la stratégie de mappage d'adresses cache à l'aide associative de jeu dans les deux sens et le moins récemment utilisé algorithme de remplacement, localisé et un routage efficace crossbar Cache mis en uvre pour améliorer le partage du parallélisme d'accès à la mémoire, réduire la latence. Vérifié par le conseil de développement FPGA de Xilinx, les résultats expérimentaux montrent que, en l'absence de conflit, les demandes de lecture et d'écriture PE 16 transmission simultanée, alors la bande passante maximale de 10,512 Go / s, le matériel est petite surcharge, seule la sur puce Capacité Cache 5%, tout en satisfaisant les exigences d'accès à la mémoire de processeur de réseau reconfigurable, pour assurer l'extensibilité de l'architecture.

références

Shaojun Wei, Liu Leibo, une première Yin. La technologie de traitement informatique reconfigurable . Chinese Science: Science de l'Information, 2012 (12): 1559-1576.

L'architecture, les méthodes de conception et des procédures de cartographie algorithme: semaines reconfigurable informatique traitement de réseau peut être efficace Changsha: Université nationale de technologie de défense, 2014.

SCHMIDHUBER J.Deep apprentissage dans les réseaux de neurones: une vue d'ensemble. Réseaux .Neural Journal officiel de la Société Neural Network International 2014,61: 85.

HAN X, D ZHOU, WANG S, et al.CNN-PMIU: Processeur reconfigurable mémoire à haut rendement à base de FPGA pour l'avant et vers l'arrière propagation des réseaux de neurones convolutionnels .IEEE, Conférence internationale sur l'ordinateur Design.IEEE, 2016: 320-327.

ROMANOV A Y, ROMANOVA I I.Utilisation de topologies irrégulières pour la synthèse des réseaux sur puce .IEEE, Conférence internationale sur l'électronique et Nanotechnology.IEEE, 2011: 445-449.

YIN S, X YAO, LIU D, et la cartographie de la boucle al.Memory-courant sur des architectures à gros grains reconfigurables .IEEE Transactions sur très grande échelle des systèmes d'intégration, 2016,24 (5): 1895-1908.

CONG J, HUANG H, MA C, et al.A entièrement en pipeline et de l'architecture dynamiquement composable de CGRA .IEEE, Symposium international sur le terrain-ProgrammableCustom Computing Machines.IEEE, 2014: 9-16.

LIANG S, S YIN, LIU L, et al.A à grains grossiers architecture reconfig-urable pour l'accélération MapReduce calcul intensif .IEEE Architecture des ordinateurs Lettres, 2016, PP (99): 1-1.

Vérifier Li Chongmin, Wang, Joseph Lee .CMP le Protocole Cohérence Cache Technologie électronique, 2005,31 (12): 1-4.

GALANIS M D, G THEODORIDIS, TRAGOUDAS S, et al.A reconfigurables grossière graindata-pathfor accélération noyaux de calcul intensif .Journal de circuits et systèmes Ordinateurs, 2005,14 (4): 877-893.

SWANSON S, SCHWERIN A, Mercaldi M, et al.The scalararchitecture d'onde .ACM Transactions sur des systèmes informatiques, 2007,25 (2): 1-54.

SOUZA J D, CARRO L, M RUTZIG B, et al.A reconfig-urable multiconducteur hétérogène avec un ISA homogène .Design, Automatisation et test en Europe Conférence et Exhibition.IEEE 2016: 1598-1603.

DU Z, LIU S, R Fasthuber, accélérateur et al.An pour le traitement de vision à haute efficacité .IEEE Transactions sur Conception Assistée par Ordinateur de circuits intégrés et systèmes, 2017,36 (2): 227-240.

BECKMANN B M, M R MARTY, BOIS D A.ASR: reproduction d'adaptation sélective pour CMP caches .IEEE / ACM Symposium international sur Microarchitecture.IEEE Computer Society, 2006: 443-454.

pluie conception collaborative Zhao basé sur un répertoire cache, Wu Junmin, Sui Xiufeng, comme dans .CMP . Génie informatique, 2010,36 (21): 283-285.

Informations sur l'auteur:

Jiang Lin 1, 2, Liu Yang, Rui Shan, Liu Peng 1, 2 Geng Yurong

(École de génie électronique, Université Xi'an des Postes et Télécommunications, Xi'an 710121, Chine; 2. École d'informatique, Université Xi'an des Postes et Télécommunications, Xi'an 710121, Chine)

Rapport du Forum économique mondial: évaluation complète de la façon de subvertir le secteur financier de la concurrence Fintech, y compris le chemin, le mode et final (a)
Précédent
Hors route aventure dans la neige Hulun Grassland Yakeshi test complet en ligne Subaru commande suv
Prochain
Dwayne Johnson toast au public, vous pouvez évidemment pas boire! « Brave jeu » première chinoise
analyse de la sensibilité de référence de bande interdite des particules individuelles
Que Dieu les ventes de voitures SUV sont plus de 80000 ce que vous attendez?
« Bowen série » ingénierie d'application S32DS IDE de débogage en utilisant Tips-- Foire aux questions (FAQ) Questions et réponses
Mondiale briser 1,1 milliard $! publié aujourd'hui épique « Wars 8 étoiles » a ouvert un nouveau chapitre
A propos de « Shadow Wolf est décédé seulement deux degrés », qui a 15 choses que vous devez savoir
Beaucoup mon pays! Système de contrôle de premier ordinateur quantique domestique est né
Toyota Corolla et Ralink qui a coûté plus?
Apple est le moteur de l'équipe déployer automatiquement le nouveau système radar laser, ou pour se préparer à la cartothèque de haute précision
Tony Wu Yifan européenne sujet brûlant main invincible « premières images fixes d'exposition Raiders l'Europe
modulation de l'étude et la performance de démodulation des « académiques » des communications par satellite
personnage de jeu directeur général des élections sondage de popularité affiché 2018 demi-finales Hommes DAY1