la conception et la mise en uvre de Convolution � bonne th�se de conception � bas� sur un grand syst�me h�t�rog�ne FFT programmable multi-points

R�sum�: FFT convolution est maintenant largement utilis� dans le traitement du signal num�rique, et au cours des derni�res ann�es confirme le d�veloppement du syst�me programmable multi-core h�t�rog�ne (HMPS) de. De plus, HMPS est devenu une tendance dominante dans le domaine DSP. Par cons�quent, l'�tude sur HMPS gros point FFT a mis en uvre de mani�re efficace est convolution tr�s important. Proc�d� de convolution de chevauchement-addition � base de FFT, con�ue pour un d�bit �lev� de donn�es d'entr�e des flux de chevauchement-ajout filtre. HMPS introduit un grand point FFT bas�e la mise en uvre convolutionnel de l'effet de filtrage est obtenu avec une grande pr�cision. De plus, avec les techniques de conception de filtre � eau, afin d'am�liorer la vitesse de traitement du syst�me, le parall�lisme des t�ches et du d�bit de donn�es. Sur la base de la carte exp�rimentale de d�veloppement FPGA Xilinx XC7V2000T ont montr� que plus les points d'�chantillonnage impliqu�s dans le calcul, seront plus �lev�s parall�lisme des t�ches du syst�me, le traitement des donn�es de vitesse et de d�bit. Lorsque le point d'�chantillonnage a atteint 1 M, moyenne du syst�me de parall�lisme des t�ches a atteint 5,33, le nombre de cycles d'horloge consomm� 2.745 � 106 syst�mes, et la pr�cision de l'erreur absolue 10-4.

format de citation chinois: Zhang Victoria, Hugh Shen Lei, Song Yu Kun, et d'autres gros point FFT convolution h�t�rog�ne conception de syst�mes programmables multi-core et mise en uvre Technologie �lectronique, 2017,43 (3): 16-20.

Anglais format de citation: Zhang Duoli, Shen Xiulei, Song Yukun, et al. Conception et mise en uvre d'une grande convolution FFT sur le syst�me programmable multi-curs h�t�rog�nes . App lication de la technique �lectronique, 2017,43 (3): 16-20.

0 introduction

Dans le domaine du traitement num�rique du signal, r�ponse impulsionnelle flux de donn�es de l'op�ration de convolution du filtre r�cepteur largement adapt�, les communications num�riques, le traitement d'image et le filtre passe-bande de signal de r�ception dans le radar. Proc�d� FFT de convolution pour convertir convolution lin�aire sur le domaine de fr�quence en utilisant le processeur de FFT efficace, il est efficace pour les algorithmes de traitement de flux de donn�es, une haute vitesse de traitement de donn�es, mais � faible d�bit de donn�es. Afin de traiter le flux de donn�es en utilisant la m�thode de convolution FFT, un processeur FFT doit �tre multiplex�, afin de maintenir la vitesse de traitement de synchronisation et le d�bit.

Avec le d�veloppement rapide de la technologie des semi-conducteurs, HMPS IC est devenue la principale tendance, et la technique de traitement du mat�riel deviennent les plus prometteurs dans de nombreuses applications. Ainsi, dans les flux de donn�es sur les processus de remplissage nul, une op�ration de convolution dans la FFT grand point, ces HMPS donn�es intensives �tre la meilleure solution et des t�ches de calculs. Pour obtenir une vitesse de traitement �lev�e et le d�bit, sur la base NoC HMPS reli�s entre eux, qui profitent de la puissance de traitement parall�le, a une bonne extensibilit� et une faible consommation d'�nergie.

Grand point de mise en uvre convolution FFT n�cessite un grand nombre de calculs complexes, la conception du filtre de goulot d'�tranglement. Cela introduit en papier et un grand principe de fonctionnement de convolution FFT point sommaire et la m�thode de d�rivation, d'autre part, HMPS architecture du syst�me d'affichage et syst�me de cartographie de l'algorithme d�taill�; Enfin, les param�tres de performance du syst�me, y compris le r�sultat de la comparaison de l'erreur, le degr� des t�ches du syst�me de parall�lisme, la consommation des ressources mat�rielles et la cible et la direction pour am�liorer les performances du syst�me pour .

Un algorithme de chevauchement-add principe

Comme repr�sent� sur la. Figure 1, la convolution FFT de chevauchement-addition est �chantillonn�e en s�quence des segments de donn�es ayant une longueur L et analogues. Supposons que les coefficients de prise h (n) de longueur N, la s�quence d'�chantillons x (n) est infinie, la s�quence x (n) de la portion aliquote de L de segments de donn�es de croissance, comme le montre l'�quation (1):

Ensuite, la s�quence h (n) et x (n) dans le r�sultat FFT du filtrage de convolution est d�fini comme suit:

D�riv� de (2) et (3) le calcul de la convolution grand point FFT, d'une part, le calcul des fragments lin�aires de segment de yk de convolution (n), alors la portion des fragments de segment de r�sultats de convolution en ajoutant , par rapport � un r�sultat filtr� finale y (n).

Pour �viter les effets de cr�nelage, la longueur M de la r�ponse impulsionnelle du filtre, la s�quence de chaque segment est ajout� apr�s le M-10, tandis que la conversion du domaine temporel dans la convolution dans le domaine fr�quentiel est multipli�, dans la s�quence de N �chantillons dans DFT dans lequel NL + M-1, par la formule (4) dans le domaine fr�quentiel r�sultat filtrage peut �tre obtenu:

O� H (k) une r�ponse de domaine de fr�quence du filtre, X (k) et Y (k) repr�sente la s�quence de l'�chantillon et la r�ponse de domaine de fr�quence du r�sultat du filtrage. Apr�s la s�quence et la s�quence de segments dans le domaine des fr�quences en multipliant la r�ponse impulsionnelle dans le null-remplissage, chaque segment inverse r�sultat filtrage op�ration FFT, et enfin dans le domaine temporel, une partie arri�re sup�rieure du point M-1 inf�rieur un M-1 segment du point avant chevauchement additionner le r�sultat filtr� final.

2 plateforme Noc-HMPS

HMPS syst�me multi-programmable h�t�rog�ne principalement utilis� dans les calculs de haute densit�, le syst�me est con�u non seulement pour satisfaire un certain type de fonctionnement particulier, mais a aussi une certaine polyvalence.

Comme repr�sent� sur la. Figure 2, une architecture de syst�me � base HMPS 7 � 6 structure de r�seau 2D maille ayant un noeud de ressource 22, les op�randes et les informations de contr�le d'�tat pass� � travers le r�seau de communication. En m�me temps, les types de noeuds de ressources d'int�gration de syst�mes multi-core sont: les clusters Flash, le contr�leur principal de cluster (contr�leur principal cluster), port Ethernet cluster (Ethernet Port cluster), r�seau � trois niveaux, groupe DDR3 de 4 Go et trois types d'op�rations � virgule flottante cluster unit�. Le syst�me est 32 bits � virgule flottante unit� coprocesseur groupe principal (COP Cluster), groupe de moyens de calcul reconfigurable (RCU Cluster) et les clusters FFT / IFFT r�pondre � la norme IEEE-754 � virgule flottante � simple pr�cision. Chaque noeud de ressource plate-forme de NoC � chaque paquet de demande d'�tat de transfert ayant un �tat du r�seau, pour fournir le r�seau de transmission de paquets de donn�es de configuration et un r�seau d'�change d'informations de configuration de circuit (PCC). La t�che est en cours d'ex�cution, tous les nuds doivent satisfaire aux ressources sur le m�canisme de communication de r�seau et la principale puce de contr�leur pour g�rer l'ordonnancement des t�ches co-traitement, jouer les avantages des syst�mes de haute performance.

2.1 groupe flash

Apr�s la remise � z�ro du syst�me, le durcissement par des informations de configuration du cluster Flash pour compl�ter le guide HMPS initialisation des t�ches du syst�me.

2.2 h�te cluster contr�leur

DDR en demandant des informations de configuration, la configuration du cluster impliqu�s dans la t�che, transmet le message de demande de donn�es / r�ponse, envoy� t�che DDR re�oit des informations de commutation, la commutation de t�ches, le syst�me pour terminer la planification des t�ches.

2.3 cluster port Ethernet

L'�change de donn�es entre le logiciel PC et puce FPGA, les informations de configuration du syst�me d�livrant des op�rations de la mission et renvoyer les donn�es originales et les donn�es de r�sultats de calcul, cluster port r�seau est un moyen n�cessaire HMPS d�bogage.

2.4 r�seau � trois niveaux

Par le r�seau de PCC, la configuration du r�seau et l'�tat du r�seau de 7 � 62D configuration de r�seau maill�, le syst�me de transmission de donn�es et d'informations de commande. r�seau de transmission de donn�es form�e en reliant le noeud de routage de r�seau PCC PCC, seule voie de transmission de donn�es. Configurer la configuration du r�seau est faite et que les informations de chemin � la demande de donn�es vers l'avant. �tat de la demande de donn�es de t�l�chargement de r�seau / r�ponse uniquement des informations de chemin.

2,5 groupe DDR3

DDR3 contr�leur d'�criture capable de traiter la requ�te de contr�le des noeuds de ressources, et la t�che impliqu�e dans la configuration du syst�me d'information, les donn�es brutes, les r�sultats interm�diaires et des donn�es imm�diates et analogues sont stock�es dans la 4 GB DDR3.

2.6 p�le FFT / IFFT

32 bits FFT capacit� de virgule flottante / cluster IFFT peut prendre en charge 16K points FFT et FFT inverse, a une architecture particuli�re de deux unit�s de calcul papillon capable de fonctionner en m�me temps, et par cons�quent, le point 16K FFT et FFT inverse ne n�cessite que le cycle d'horloge du syst�me 56.3K .

2.7 cluster RCU

32 groupes de bits RCU capacit� en virgule flottante et un traitement principal structur� op�ration de nombre r�el complexe, y compris les multiplications complexes r�els entre les quantit�s d'addition et de soustraction, etc. . L'unit� de traitement est constitu� de deux multiplieurs et deux additionneurs, ayant des caract�ristiques reconfigurables, il est possible de traiter de grandes quantit�s d'op�rations de donn�es. En m�me temps, capable de supporter deux modes de donn�es de fonctionnement: le mode de stockage et un mode de flux.

groupe 2,8 COP

Satisfaire la simple pr�cision IEEE-754 clusters norme � virgule flottante COP est principalement contr�l�e par la programmation de logiciels irr�guli�re complexes � virgule flottante, nombre r�el op�ration arithm�tique, y compris le complexe, le nombre r�el entre l'addition, soustraction, multiplication, division, racine carr�e, etc. < 7>. l'architecture SIMD coprocesseur � base de micro flamber employ� comme l'unit� de commande, via le point flottant mat�riel de commande de bus FSL coprocesseur IP. t�ches syst�me de cluster de COP impliqu�s dans le contr�le principalement les donn�es re�ues, et la transmission des r�sultats de l'unit� de traitement op�ration de corr�lation correspondant � la programmation du logiciel SDK.

3 gros point cartographie algorithme de convolution FFT

Dans cet article, les coefficients de prise font 1K + 1 h (n) et le nombre d'�chantillons de 16K points de x (n), par exemple, pour v�rifier la m�thode de z�ro de remplissage et de chevauchement-addition, comme le montre la Fig.

Le null-remplissage et le chevauchement par la m�thode d'addition d'eau, en divisant les points d'�chantillonnage dans 16K segments 16 longue 1K autre groupe, afin d'�viter les effets de repliement de spectre, tous les segments et les fragments et les coefficients de prise sont ajout�s 1K-11K point z�ro s�quences, converti en une longueur uniforme 2K pour compl�ter la convolution FFT segments respectifs par le segment de noeud de ressource de syst�me. Afin d'am�liorer la vitesse de traitement et la pleine utilisation des avantages de HMPS haute performance, tous les �chantillons � la fr�quence de conversion de domaine � travers le domaine et puis, les clusters informatiques tels que tout syst�me informatique parall�le est capable de participer � l'eau, afin d'am�liorer le parall�lisme des t�ches du syst�me.

. La figure 4 (a),. La figure 4 (b) et 4 (c), comme illustr�, l'algorithme de convolution 16K FFT cartographier le point d'�chantillonnage en quatre sous-t�ches (Task0, Task1, Task2 et Task3). Dans le graphe de flux de donn�es suivant (DFG), l'unit� � virgule flottante 18 syst�me intervenant dans l'ex�cution des t�ches.

. La figure 4 (a), la t�che sp�ciale par Task0 FFT0, FFT1 et FFT2 grappes pour calculer la r�ponse en fr�quence des coefficients de prise, stock�s et COP0, COP1 de la grappe et l'unit� de stockage de feuilles de COP2. Dans la t�che suivante, ils sont transmis � RCU0, RCU1 et cluster RCU2, et ajouter z�ro fragments de segments de s�quence font multiplication par lots dans le domaine de fr�quence.

Avant que les �chantillons principaux 2K TASK1 de calcul, les r�sultats obtenus avant de filtrer 2K points, l'unit� de stockage stocke la feuille interm�diaire grappes COP3 de COP5 de cluster 1K r�sultat filtr� pour le prochain pipeline d'op�ration d'ajout de chevauchement.

. La figure 4 (b) comme indiqu�, en utilisant quatre architecture informatique parall�le pipeline de circulation Task2, tous les nuds sont impliqu�s dans les ressources d'ex�cution des t�ches, en th�orie, pour atteindre le maximum. FFT0, FFT1 FFT2 et de l'eau de chaque groupe ont �t� calcul�es en r�ponse � chaque point dans le domaine fr�quentiel 2K, RCU0, les clusters RCU1 de RCU2 sont mis en uvre et des coefficients de prise et de chaque multiplication de points d'�chantillonnage en vrac dans le domaine des fr�quences, FFT3, FFT4 et des grappes par inversion FFT5 op�ration FFT dans le domaine fr�quentiel en domaine temporel r�sultat de filtrage, sont transmises � la COP3, des grappes de CdP4 et COP5 Enfin RCU3, les clusters RCU4 de RCU5 et deux sections longitudinales pour r�aliser les segments de r�sultat se chevauchent et ajouter filtre 1K points, pour donner un r�sultat filtr� finale et stock�s dans un cluster DDR3.

Dans la derni�re t�che Task3, le filtre primaire pour atteindre un point de l'�chantillon final 2K, 3K filtrer le r�sultat est �crit � grappe DDR3, comme repr�sent� sur la Figure 4 (c). Jusqu'� pr�sent, � travers quatre t�ches pour r�aliser l'op�ration de convolution FFT point 16K en HMPS dans.

Dans le sch�ma de mappage de l'algorithme ci-dessus par des grappes DDR3 � des informations de configuration du magasin impliqu�s dans l'ex�cution des t�ches, les donn�es d'�chantillon originales et le r�sultat de filtrage, le noeud FFT et grappe RCU impliqu�s dans le processus de calcul, en utilisant COP0, l'unit� de stockage des grappes de COP1 et COP2 de feuilles stocke filtre coefficient de r�ponse de domaine de fr�quence en utilisant COP3, CdP4 et cluster COP5 pour recevoir des donn�es d'�mission au RCU3 r�sultat interm�diaire correspondant, des grappes de RCU4 RCU5 et addition-recouvrement obtenue. Comme on peut le voir � partir de la DFG, groupe de COP impliqu� dans l'ex�cution des t�ches simplement pour recevoir et transmettre les donn�es interm�diaires, la t�che ne participe pas � l'op�ration proprement dite, et tout le cluster de calcul de FFT et RCU de corr�lation impliqu�e dans l'ensemble de la t�che, et donc, le syst�me maximum th�orique le parall�lisme des t�ches est 12.

Le m�canisme de communication et r�seau HMPS sur le cluster � virgule flottante � puce dans le sch�ma de mise en correspondance de convolution FFT efficace, un grand point du syst�me est plus pratique que l'architecture de conception traditionnelle, un fonctionnement souple et plus efficace.

4 Analyse des performances du syst�me et des r�sultats

Dans Xilinx XC7V2000T carte de d�veloppement FPGA, la fr�quence d'horloge du syst�me est r�gl� sur 100 MHz et test� pour v�rifier, et � travers l'interface r�seau et les clusters de logiciels PC les r�sultats des donn�es au PC local.

Par le r�sultat du calcul avec le logiciel Matlab HMPS vu du r�sultat de la comparaison de l'erreur de traitement, en raison de la grande convolution point FFT accumul� Calcul de la fermeture d'erreur par rapport � z�ro, par cons�quent, la m�thode de l'erreur absolue syst�me donn�, tel que la formule (5):

Le tableau 1 montre le point d'�chantillonnage est de 64 K et M 1, et la consommation de l'horloge du syst�me syst�me moyen de parall�lisme de t�ches correspondant, dans lequel, Aerr_imagmax Aerr_realmax et repr�sente la partie r�elle et la partie imaginaire de l'erreur absolue maximale. parall�lisme moyenne des t�ches est calcul� comme suit:

Dans lequel, les grappes repr�sente le degr� de parall�lisme, la consommation d'horloge Tclusters repr�sente le degr� de parall�lisme des clusters, T repr�sente une consommation d'horloge de la mission.

Dans le sch�ma de cartographie ci-dessus, les points 64K et 1M besoin de modifier uniquement le nombre de cycles d'autres Task2 restent inchang�s. Le null-remplissage et le chevauchement-addition en moyenne de 16K points cycles de fonctionnement convolution FFT eau cinq fois, et les points de 64K et 1M sont n�cessaires en utilisant 21 fois et 341 fois l'op�ration de cycle de l'eau.

A partir du tableau 1 peut �tre d�duit des r�sultats exp�rimentaux, plus les points d'�chantillonnage qui participent au fonctionnement du syst�me, plus moyen de parall�lisme des t�ches du syst�me, et l'erreur absolue maximale proche 10-4, par rapport � h�t�rog�ne unit� de traitement multi-documents dans l'erreur relative de 10-3, le syst�me actuel a une plus grande pr�cision. Par rapport � la litt�rature h�t�rog�ne � plusieurs SoC est (ATP qui atteint au maximum 3,88), ce mod�le peut atteindre 5,33, qui a une vitesse de traitement plus �lev�e et le syst�me d'attribution des t�ches en moyenne, plus le nombre de points d'�chantillonnage, plus l'effet.

Dans HMPS Xilinx XC7V2000T conseil de d�veloppement de la consommation des ressources mat�rielles, comme indiqu� dans le tableau 2.

5. Conclusion

Dans de nombreuses applications, gros point FFT Convolution est n�cessaire de briser le goulot d'�tranglement technique, ce qui r�duit le temps de calcul et d'am�liorer l'efficacit� op�rationnelle et de filtrer l'exactitude des r�sultats est importante. Cet article permet la cartographie efficace des gros point convolution FFT HMPS programme de 2M, 4M, m�me des �chantillons plus grands peuvent facilement ajouter des cycles de l'eau par la m�thode de cartographie ci-dessus pour mettre en uvre et ne n�cessite pas des ressources mat�rielles suppl�mentaires la consommation.

Notez �galement que, pour am�liorer les performances du syst�me et le parall�lisme des t�ches n�cessite en m�me temps pour toutes les op�rations impliqu�es dans les t�ches de calcul du cluster. outils de papier le coefficient de prise 1K + 1 point robinet coefficient autre longueur appropri�e peuvent �tre utilis�es. En tant que syst�me de processeur � usage g�n�ral, HMPS principalement utilis� dans le calcul de haute densit�, peut �tre mis en uvre d'autres calculs complexes.

Gr�ce � l'analyse exp�rimentale montre que les performances du syst�me est beaucoup de place pour l'am�lioration, afin d'obtenir des donn�es plus le d�bit, la vitesse de traitement, et le parall�lisme des t�ches, le temps de communication peut �tre r�duite en am�liorant le r�seau sur puce et en augmentant la bande passante efficace pour augmenter les donn�es d�bit DDR et ainsi de suite, il a une grande importance.

r�f�rences

CHEN F Y, ZHANG D S, Z WANG Y.Research de l'h�t�rog�ne conception de l'architecture de processeur multi-core .Com puter Engineering & Science, 2011,33 (12): 27-36.

J REN, IL Y, XUN C Q, et proc�d� mat�riel / logiciel al.A pour des noyaux h�t�rog�nes coop�rant sur l'architecture de flux .Chinese Journal des ordinateurs, 2008,31 (11): 2038-2046.

Hou Ning, Lu Yapeng, Zhang Duoli .Com solution munication de multi-core chipset bas� sur NoC .Com PUTER Era, 2014 (10): 17-18.

W LEI, Xiao M, RUI X.Study sur un syst�me de test en parall�le bas� sur multiconducteur .Journal de Xian Jiaotong University, 2008,42 (6): 683-687.

LI �J, J MARTINEZ consid�rations F.Power performance de calcul parall�le sur multiprocesseurs � puce .ACM Transactions sur l'architecture et l'optimisation du code (TACO), 20052 (4): 397-422.

Wang Xing, Zhang Duoli, Song Yukun, et al.Design et la mise en oeuvre d'une r�duction � virgule flottante reconfigruable unit� de calcul .International Conf�rence sur l'ordinateur, la s�curit� des r�seaux et ing�nierie de la communication (CNSCE), 2014.

HAN Z F, LI �J S, PAN H B, et al.Design de vecteur � virgule flottante coprocesseur bas� sur FPGA .Com puter ing�nierie, 2012,38 (5): 251-254.

ZHANG D, ZHANG Y, la mise en uvre SONG Y.Proc�d� de grande FFT sur le syst�me � noyaux multiples homog�ne .Solid-�tat et de la technologie Circuit int�gr� (ICSICT), 201412e Conf�rence internationale IEEE on.IEEE, 2014: 1-4.

SONG Y, R JIAO, ZHANG D, analyse et al.Performance de matrice multiplication bas� sur un SoC multicoeurs h�t�rog�nes .ASIC (Asicon), 2015 IEEE 11e Conf�rence internationale on.IEEE, 2015: 1-4.

Informations Auteur

Zhang Victoria, Hugh Shen Lei, Song Yu Kun, Du Gaoming

(Hefei Universit� de technologie, l'Institut de Design Microelectronics, Hefei 2 30 009)

Route de la soie

Apprenez � conna�tre la Chine

la conception et la mise en uvre de Convolution � bonne th�se de conception � bas� sur un grand syst�me h�t�rog�ne FFT programmable multi-points