conception de processeur de r�seau reconfigurable Distributed Cache

Avec le d�veloppement rapide de la technologie de circuit, l'intelligence artificielle, de nouvelles applications �mergentes, processeur reconfigurable � la fois un processeur � usage g�n�ral (processeur � usage g�n�ral, PPB) flexibilit� et ASIC (Application Specific Integrated Circuit , ASIC) puissance de calcul, qui deviennent progressivement une des applications intensives de recherche � chaud. Extraction de donn�es de navire reconfigurable telle que la pr�sente de masse une grave p�nurie de bande passante m�moire , afin de rechercher pour r�soudre la bande passante d'une grave p�nurie de la structure de stockage est la cl� pour am�liorer la performance globale du syst�me.

Pour r�soudre ce probl�me, les concepteurs couramment utilis� la technologie Cache, dans laquelle le document plates-formes mat�rielles CGRA, la structure de m�moire � l'aide d'un partage de donn�es du cache, cette configuration diff�rence de parall�lisme de donn�es, la structure FPCA CONG J et al en augmentant la une part capacit� de cache pour am�liorer le taux de succ�s document utilise �galement une grande capacit� sur puce partag�e Cache � r�cup�rer, une telle grande capacit� structure de cache permet non seulement la zone de l'ensemble du syst�me augmente et le parall�lisme d'acc�s � la m�moire est toujours pas �lev� . La pluralit� ci-dessus de processeurs partagent un seul contr�le l'espace cache de telles projections concurrentielles , l'augmentation de retard. . GALANIS MD et al, qui propose un chemin de donn�es reconfigurable, la structure de partage de m�moire � l'aide d'un partage de deux Cache Cache et pour am�liorer la vitesse d'acc�s m�moire , les donn�es WaveScalar flux architectural, Universit� de Toronto SWANSON S et al propos�, sur la puce de l'unit� de m�moire en utilisant seulement une donn�e partag�e et instruction Cache Cache ; processeur adaptatif dynamique SOUZA JD et al, l'utilisation de deux cellules de m�moire partageant Cache encore �tre atteint, dans lequel les donn�es et les instructions dans une m�moire cache. cache . Document de distribu� sur puce buffer con�u pour am�liorer l'efficacit� d'acc�s aux donn�es, mais encore interagir avec la m�moire externe en utilisant la technologie du cache partag�. Cache ou plusieurs multi-niveaux partag�s caract�ristiques structurelles et sans tenir compte des exigences de parall�lisme donn�es de lieu de telle sorte que la diff�rence de parall�lisme d'acc�s en m�moire, le d�bit est tr�s r�duite.

Pour la r�cup�ration des donn�es de quantit� processeur reconfigurable est grande, les exigences de donn�es �lev�es et le parall�lisme des donn�es moins r�utilisables globale, locale apparente, ce document propose un � physiquement distribu� logiquement unifi� � cache distribu� architecture. Le processeur de r�seau reconfigurable et Cache Cache � distance locale a lu et acc�s en �criture, l'acc�s local prioritaire Cache Cache haut � distance index� par une destination se classe barre transversale efficace, lors de l'interaction avec une m�moire externe, la conception roue apr�s l'arbitrage arbitrage de consultation un moyen de signaler pour la transmission de donn�es via un routeur, et enfin tester la conception � Virtex-6 conseil de d�veloppement de xc6vlx550T de famille de Xilinx, les r�sultats exp�rimentaux montrent que la structure tout en conservant la simplicit� et l'�volutivit�, le plus en mesure de fournir 10,512 Go / s de bande passante d'acc�s m�moire pour r�pondre � l'acc�s � la m�moire processeur reconfigurable demande.

Un processeur � r�seau reconfigurable architecture distribu�e Cache

configuration r�seau reconfigurable est utilis� ici, un groupe de processeurs de r�seau est constitu� de 4 x 4 consistant en PE (Processing Element Group, PEG), chacune des donn�es d'acc�s � la m�moire de PE largeur de 32 bits, ce qui est distribu� sous forme de cache d'architecture comme repr�sent� sur la. figure 1, un cache (cache), et un adaptateur de r�seau arbitre composition des sondages. Chaque PE a laquelle un cache local, un total de 16, 16 qui cache l'architecture physique distribu� logiquement unifi�. Chaque PE est accessible uniquement par le cache local se classe commutateur crossbar efficace peut �galement utiliser le cache � distance. En l'absence de conflit, lorsqu'un acc�s cache PE local, la plus haute priorit�, une fois le cache local a frapp�, les donn�es sont imm�diatement retourn� � la PE demande, en cas de choc, un signal n�cessite un arbitrage par vote par l'arbitre de routeur de canal virtuel VCR0901 communiquer avec une m�moire externe; cache lors de l'acc�s � distance PE, PE besoin d'�tre index� par l'objet de la barre transversale de la ligne, compl�tant ainsi le fonctionnement de la m�moire cache �loign�. Dans le cas de l'op�ration locale et � distance des conflits, la priorit� d'acc�s local, suivi par les commentaires de demande � distance correcte. Processeur reconfigurable Cache architecture r�partition PE 16 peut simultan�ment lire et �crire dans la m�moire cache locale en l'absence de violation d'acc�s, la bande passante d'acc�s r�parti de m�moire cache de la structure en pointe.

1.1 Conception Cache

Cache a surtout frapp� par l'unit� de d�termination (Juge), unit� de registre de drapeau (de tag_index), l'unit� de registre d'�tat (�tat), la politique de remplacement de l'unit� d'�criture (wr_strategy) et l'unit� de stockage de donn�es cache (Cache_data), comme le montre la figure.

(1) un moyen de d�termination: l'unit� de r�ception est principalement utilis� pour la lecture et des signaux d'�criture de la PE, l'unit� de stockage d'informations de drapeau en fonction du drapeau de lecture d'information d'adresse, et d�termine ensuite, et d�livre en sortie un r�sultat d'�criture dans l'unit� d'information;

(2) Stockage Drapeau Unit�: Cette unit� est principalement utilis� pour les drapeaux et les informations d'index des donn�es enregistr�es et mises � jour en temps r�el en fonction des informations unit� de stockage de donn�es cache;

(3) unit� de registre d'�tat: Cette unit� est principalement utilis� pour un peu de sale et d'informations de bit valide des donn�es enregistr�es et mises � jour en temps r�el en fonction des informations unit� de stockage de donn�es cache;

(4) Remplacer l'unit� de strat�gie d'�criture: le moins r�cemment unit� pr�vue � une strat�gie alternative � la ligne de cache, et si l'unit� d'interpr�tation de l'information enregistr�e � une m�moire externe en fonction de donn�es d'�criture � l'�tat;

(5) unit� de stockage de donn�es du cache: la principale politique de r�-�criture des utilisations de l'unit� interagit avec la m�moire externe par l'interm�diaire de l'itin�raire.

1.2 arbitre de vote de la conception

Lorsque la miss cache distribu�, �mission lu ou un signal d'acc�s en �criture � l'arbitre, l'arbitre par l'interm�diaire m�canisme d'interrogation d'arbitrage d�livre un signal de r�glage sur l'adaptateur de r�seau, le sch�ma de configuration de vote de l'arbitre repr�sent� sur la figure 3.

1.3 Conception de la carte r�seau

R�seau est une carte d'interface de r�seau pour la communication entre le PE et la m�moire externe, emballage et de d�ballage pour le fonctionnement du routeur en conformit� avec le format de l'information de communication, le format de paquet tel que repr�sent� sur la Fig.

Un module d'adaptateur de r�seau par les donn�es d'�criture et de lecture des modules de donn�es, la structure de niveau sup�rieur, comme indiqu� sur la Fig.

2 politiques d'acc�s parall�les bas�es sur le cache distribu�

Pour les processeurs reconfigurable, l'�change d'informations au sein du groupe plac� par la barre transversale rangs, l'interaction de l'information entre les clusters transmis par le routeur apr�s l'arbitrage du scrutin.

proc�dure d'acc�s lecture PE repr�sent� sur la figure. 6, lorsqu'une questions de PE une requ�te de lecture, si les informations d'adresse de lecture est d�termin�e par le cache local, dans lequel la plus haute priorit� pour lire le cache local. Si la lecture � distance du cache, dans les rangs de la barre transversale pour localiser la position du groupe de PE, l'adresse de lecture et le drapeau bit Cache de comparaison, si le coup de lecture, dans les rangs de la barre transversale de donn�es directement lues renvoy�es � la demande PE, sinon lire a frapp� et frapp� invalide la ligne, la route � travers les blocs de donn�es m�moire externe se d�placent vers le cache, les donn�es op�ration de lecture, si la miss de lecture et appuyez sur la ligne est valide, selon la strat�gie principale algorithme de remplacement a r�cemment utilis� le plus ancien et reprise d�placer le bloc de donn�es stock�, et enfin les donn�es lues renvoy�es au demandeur PE par la barre transversale. processeurs reconfigurable PE 16 peut effectuer simultan�ment le cache des op�rations de lecture ci-dessus. PE acc�s en �criture et une op�ration d'acc�s en lecture est similaire au proc�d�, comme repr�sent� sur la Fig.

3 Simulation et analyse de performance

3.1 Simulation de conception

Apr�s l'�tape de la conception RTL � l'unit� de cache, et les sondages d'arbiter l'acc�s bas� sur les politiques carte r�seau Cache distribu� par le test d'excitation acc�s en �criture plusieurs cas typiques, Questsim simulation fonctionnelle, le processeur reconfigurable routeur de canal virtuel, le processeur de lumi�re centrale et une m�moire Xilinx interconnexion IP sur mesure, la conception du mat�riel test� par Virtex-6 carte de d�veloppement xc6vlx550T de la famille de Xilinx, les param�tres sp�cifiques, comme indiqu� dans le tableau 1.

Le nombre minimum de cycles de retard g�n�ralement lorsqu'un acc�s aux donn�es La figure 9 montre la violation d'acc�s local et � distance,. G�n�ralement le nombre minimum de cycles de retard, sans acc�s aux donn�es conflit Figure 8 montre l'acc�s local et distant.

Comme on peut le voir sur la figure. 8, dans le cas o� il n'y a pas de concurrence, un acc�s au cache de retard � distance cycles d'horloge que le cache local. Vu de. La figure 9, lorsque l'acc�s local et distant � la fois du cache local, depuis la m�moire cache locale priorit� �lev�e, de sorte que la premi�re requ�te en r�ponse � l'activation du cache local, une demande distante r�pond apr�s un retard de 4 cycles d'horloge.

3.2 Analyse des performances

La conception int�gr�e par Xilinx ISE14.7, le composant s�lectionne xc6vlx550T int�gr�, les impl�mentations distribu�es Cache peut atteindre une fr�quence de fonctionnement maximum de 164,249 MHz, le dispositif sp�cifique la consommation de ressources, comme indiqu� dans le tableau 2.

Document conception d'une architecture partag�e distribu�e cache et cache, et donne l'acc�s moyen et distribu� � partager Cache Cache Cache localement et � distance de retard cache, et le tableau 3 pr�sente le document Structure d'acc�s moyen les r�sultats de la comparaison retard�e.

� partir du tableau 3, l'acc�s moyen de cet article dans le pire des cas (par exemple d'acc�s � distance lorsque le conflit) est retard�e par rapport au cache partag�, encore diminu�, quand l'acc�s au cache local, la latence d'acc�s de cette l�g�re augmentation est due en lorsqu'il est frapp�, le routeur d'acc�s grand retard caus�, lors de l'acc�s au cache � distance, le d�lai d'acc�s moyen est nettement plus faible par rapport � la litt�rature r�duit de 30%.

Cache distribu� ici important co�t du mat�riel peut �tre calcul� en (T + S) � N � L � P , dans lequel, T, S, respectivement des bits drapeaux et les bits d'�tat sont occup�s; N repr�sente le Cache le nombre de groupes; W est repr�sent� par l'associativit� du cache; P repr�sente le nombre de coeurs de processeur. Chaque noyau de processeur correspondant au co�t du mat�riel du cache est calcul�e selon la formule de 1,6 kb, la capacit� du cache de 5% seulement de la puce.

4 Conclusion

processeur reconfigurable pour un acc�s et un stock important de l'extraction mondiale r�utilisable moins, les caract�ristiques locales importantes, la conception et la mise en uvre d'une architecture de cache distribu�, dans laquelle la strat�gie de mappage d'adresses cache � l'aide associative de jeu dans les deux sens et le moins r�cemment utilis� algorithme de remplacement, localis� et un routage efficace crossbar Cache mis en uvre pour am�liorer le partage du parall�lisme d'acc�s � la m�moire, r�duire la latence. V�rifi� par le conseil de d�veloppement FPGA de Xilinx, les r�sultats exp�rimentaux montrent que, en l'absence de conflit, les demandes de lecture et d'�criture PE 16 transmission simultan�e, alors la bande passante maximale de 10,512 Go / s, le mat�riel est petite surcharge, seule la sur puce Capacit� Cache 5%, tout en satisfaisant les exigences d'acc�s � la m�moire de processeur de r�seau reconfigurable, pour assurer l'extensibilit� de l'architecture.

r�f�rences

Shaojun Wei, Liu Leibo, une premi�re Yin. La technologie de traitement informatique reconfigurable . Chinese Science: Science de l'Information, 2012 (12): 1559-1576.

L'architecture, les m�thodes de conception et des proc�dures de cartographie algorithme: semaines reconfigurable informatique traitement de r�seau peut �tre efficace Changsha: Universit� nationale de technologie de d�fense, 2014.

SCHMIDHUBER J.Deep apprentissage dans les r�seaux de neurones: une vue d'ensemble. R�seaux .Neural Journal officiel de la Soci�t� Neural Network International 2014,61: 85.

HAN X, D ZHOU, WANG S, et al.CNN-PMIU: Processeur reconfigurable m�moire � haut rendement � base de FPGA pour l'avant et vers l'arri�re propagation des r�seaux de neurones convolutionnels .IEEE, Conf�rence internationale sur l'ordinateur Design.IEEE, 2016: 320-327.

ROMANOV A Y, ROMANOVA I I.Utilisation de topologies irr�guli�res pour la synth�se des r�seaux sur puce .IEEE, Conf�rence internationale sur l'�lectronique et Nanotechnology.IEEE, 2011: 445-449.

YIN S, X YAO, LIU D, et la cartographie de la boucle al.Memory-courant sur des architectures � gros grains reconfigurables .IEEE Transactions sur tr�s grande �chelle des syst�mes d'int�gration, 2016,24 (5): 1895-1908.

CONG J, HUANG H, MA C, et al.A enti�rement en pipeline et de l'architecture dynamiquement composable de CGRA .IEEE, Symposium international sur le terrain-ProgrammableCustom Computing Machines.IEEE, 2014: 9-16.

LIANG S, S YIN, LIU L, et al.A � grains grossiers architecture reconfig-urable pour l'acc�l�ration MapReduce calcul intensif .IEEE Architecture des ordinateurs Lettres, 2016, PP (99): 1-1.

V�rifier Li Chongmin, Wang, Joseph Lee .CMP le Protocole Coh�rence Cache Technologie �lectronique, 2005,31 (12): 1-4.

GALANIS M D, G THEODORIDIS, TRAGOUDAS S, et al.A reconfigurables grossi�re graindata-pathfor acc�l�ration noyaux de calcul intensif .Journal de circuits et syst�mes Ordinateurs, 2005,14 (4): 877-893.

SWANSON S, SCHWERIN A, Mercaldi M, et al.The scalararchitecture d'onde .ACM Transactions sur des syst�mes informatiques, 2007,25 (2): 1-54.

SOUZA J D, CARRO L, M RUTZIG B, et al.A reconfig-urable multiconducteur h�t�rog�ne avec un ISA homog�ne .Design, Automatisation et test en Europe Conf�rence et Exhibition.IEEE 2016: 1598-1603.

DU Z, LIU S, R Fasthuber, acc�l�rateur et al.An pour le traitement de vision � haute efficacit� .IEEE Transactions sur Conception Assist�e par Ordinateur de circuits int�gr�s et syst�mes, 2017,36 (2): 227-240.

BECKMANN B M, M R MARTY, BOIS D A.ASR: reproduction d'adaptation s�lective pour CMP caches .IEEE / ACM Symposium international sur Microarchitecture.IEEE Computer Society, 2006: 443-454.

pluie conception collaborative Zhao bas� sur un r�pertoire cache, Wu Junmin, Sui Xiufeng, comme dans .CMP . G�nie informatique, 2010,36 (21): 283-285.

Informations sur l'auteur:

Jiang Lin 1, 2, Liu Yang, Rui Shan, Liu Peng 1, 2 Geng Yurong

(�cole de g�nie �lectronique, Universit� Xi'an des Postes et T�l�communications, Xi'an 710121, Chine; 2. �cole d'informatique, Universit� Xi'an des Postes et T�l�communications, Xi'an 710121, Chine)

Route de la soie

Apprenez � conna�tre la Chine

conception de processeur de r�seau reconfigurable Distributed Cache