Am�lioration de la sous-syst�me de r�seau d'architecture de processeur haute performance

Li Longfei, le printemps de l'histoire, Wang Jianfeng, Il comptabilit� Chong

(Institut de Xi'an Microelectronics Technology, Xi'an 710065, Chine)

goulots d'�tranglement traditionnels de performance du sous-syst�me de processeur de r�seau dans un environnement r�seau � haut d�bit, en particulier la faible efficacit� de la gestion BD, les retards de transmission de donn�es et d'autres questions, une am�lioration de l'architecture du sous-syst�me r�seau. L'architecture de gestion BD se d�placera du processeur NIC et �tend les informations BD, tout en augmentant la recherche du cache et de la lecture op�ration non valide. Simulation et �valuation de l'architecture du syst�me par simulateur Simics. Les r�sultats exp�rimentaux montrent que l'utilisation de la technologie et l'architecture DCA par rapport � l'architecture plus traditionnelle, des am�liorations architecturales que l'utilisation de la plus grande bande passante, tout en r�duisant l'utilisation du processeur, de maintenir un meilleur �quilibre des performances et des ressources.

Carte r�seau, l'architecture du sous-syst�me de r�seau, la gestion BD, BD Engine

CLC: TN402

Code de document: A

DOI: 10,16157 / j.issn.0258-7998.2017.01.012

format de citation chinois: Li Longfei, le printemps de l'histoire, Wang Jianfeng, etc. Une meilleure conception de l'architecture du sous-syst�me processeur r�seau haute performance Technologie �lectronique, 2017,43 (1): 46-49.

Anglais format de citation: Li Longfei, Shi Yangchun, Wang Jianfeng, et al. Une am�lioration de l'architecture haute performance du sous-syst�me de r�seau de processeur .Application Technique �lectronique, 2017,43 (1): 46-49.

0 introduction

La croissance rapide du processeur requise bande passante du r�seau a suffisamment de puissance de calcul, il faut aussi NIC (Network Interface Card) il est efficace capacit� de transfert de donn�es, ce qui donne la conception du sous-syst�me de processeur de r�seau apporte de nombreuses nouvelles difficult�s et d�fis. Les donn�es exp�rimentales montrent que, Gigabit Ethernet environnement (10GbE), les donn�es du r�seau peuvent �tre re�ues processeur Intel Xeon d�pl�tion, quad core en deux capacit�s de traitement de base . Un tel r�seau o� le taux de d�s�quilibre et le taux de transformation affecte la performance du syst�me fonctionne correctement, mais aussi augmente directement la complexit� de la conception de la carte r�seau.

Pour r�soudre ce probl�me, les chercheurs � la maison et � l'�tranger au cours des derni�res ann�es de recherches men�es sur de nombreux aspects de l'architecture du syst�me, des piles de protocoles, le logiciel syst�me. Document propos� (d�chargement TCP / IP) TCP / IP Offload technologie; document propos� l'acc�s aux donn�es � distance directe (acc�s � distance Direct Memory, RMDA) technologie; Document est r�duite du processeur NIC r�duire le nombre d'interactions propos�es interruption de la polym�risation, une grande partie de l'agr�gation et de la segmentation de trame de donn�es. Mais ces solutions ne se pr�occupent exclusivement dans la proc�dure locale de traitement de r�seau, l'efficacit� de traitement du syst�me ne donne pas une am�lioration significative provoqu�e, et n'a pas la polyvalence.

Apr�s ce document analyse l'architecture du sous-syst�me de processeur de r�seau traditionnel, travaux et les d�fauts, l'architecture propos�e am�lior�e sch�ma de conception du sous-syst�me de r�seau. L'unit� de gestion du programme par le processeur trame de donn�es se d�place de la carte r�seau, l'architecture carte r�seau pour r�soudre le besoin traditionnel d'obtenir des informations afin de transmettre la trame de donn�es d�crit les probl�mes, ce qui r�duit la Interagir de pression avec le processeur NIC pour am�liorer le syst�me l'efficacit� du traitement et le d�bit r�seau.

1 l'architecture du sous-syst�me de r�seau traditionnel

1.1 Flux de traitement de r�seau

Des donn�es r�seau de traitement d'un processus d'E / S sensible, mais implique aussi beaucoup de mat�riel (par exemple, carte r�seau, PCI-E, etc.) et des logiciels (par exemple, pilote de protocole TCP / IP). Un re�u trame de donn�es, et d�marre les pilotes NIC interactifs. Descripteur de tampon (tampon de descripteur, BD) entre un pilote d'interface r�seau et un pont, qui peut contenir des informations indiquant les trames de donn�es re�ues adresse NIC stock�es en m�moire, � savoir, BD contient une prise valide buffer mot (sous Linux appel� tampon SKB). L'unit� de transmission maximale trame Ethernet, la taille du tampon SKB est 1518 B. BD BD pour former une boucle dans l'espace de noyau de l'h�te, le pointeur de la consommation avec le pointeur de g�n�ration et de mise � jour dynamiquement et maintient la synchronisation entre la BD et SKB tampon.

Un r�seau typique re�oit la proc�dure de traitement repr�sent�e sur la Fig. Avant de recevoir les donn�es, la premi�re carte r�seau besoin d'obtenir par le bus PCI-E BD et stock�s localement dans la carte r�seau (�tape 1). Apr�s (�tape 2) recevant des trames de donn�es � partir du r�seau, des trames de donn�es transmises par la carte r�seau PCI-E dans la BD DMA sp�cifi�s SKB tampon (�tape 3). Une fois que les donn�es dans le tampon de trame, les informations de carte r�seau est mise � jour sur la BD, par exemple de plus en plus l'information de longueur de trame, VLAN, etc., la transmission et l'anneau BD BD mises � jour retourne (�tape 4). Ensuite, interruption NIC MSI est g�n�r� (�tape 5) � l'unit� centrale par l'interm�diaire du PCI-E. Apr�s que la CPU re�oit la demande d'interruption revient � lire anneau BD BD, de mani�re � acqu�rir l'adresse et la longueur de la trame de donn�es, la trame de donn�es est mis en correspondance avec la structure de donn�es de SKB (�tape 6). Lorsque le conducteur SKB tampon est transmise � la pile de protocoles, le pilote d'initialiser les informations de sortie et la m�moire tampon SKB BD, les donn�es utilis�es pour les images suivantes re�ues (�tape 7). Apr�s le traitement de pile de protocoles est termin�e, les trames de donn�es sont transmises � l'application finale, � savoir atteindre l'espace utilisateur. Ainsi, le processus de r�ception d'une trame de donn�es est termin�e.

1.2 traitement analyse les frais g�n�raux

Dans le r�seau haut d�bit, carte r�seau face � de nombreux d�fis. Tout d'abord, avant la transmission efficace des donn�es, les besoins NIC pour obtenir dans l'espace du noyau d'acc�s PCI-E BD, en substance, il ne appartiennent � la transmission de donn�es de r�seau, va �videmment ajouter une surcharge inutile. La recherche montre que le temps de retour du PCI-E n�cessite environ 2200 ns, principalement en raison de la complexit� du protocole de transmission et la demande PCI-E DMA due � la concurrence .

En outre, dans un flux de traitement de r�seau typique, la r�plication des donn�es et SKB tampon de lib�ration est actuellement la principale charge de traitement du r�seau. Principalement fait r�f�rence au r�seau de donn�es des temps de r�plication de r�plication de donn�es pendant la transmission, le r�seau sont copi�s de la m�moire cache � la carte r�seau, la m�moire tampon de carte r�seau est copi� � partir de l'espace de noyau dans le syst�me, le syst�me copi� � partir de l'espace de noyau dans l'espace utilisateur. Cette CPU de r�plication fr�quente cr�e un fardeau suppl�mentaire, affectant ainsi l'efficacit� de leur travail, augmenter les applications de calcul de temps d'attente moyen. Lorsque les donn�es sont copi�es dans le tampon d'application, SKB tampon besoin d'�tre lib�r� et d�fauts de cache est la principale cause de surcharge importante lib�ration tampon. Bien que l'augmentation du cache peut r�duire l'apparition de la situation de d�faut de cache, mais il ne r�sout pas la carte r�seau et l'interaction du pilote et la r�plication des donn�es et d'autres questions, si peu de sens dans des applications pratiques.

2 conception du sous-syst�me de r�seau

2.1 L'architecture globale

En substance, l'architecture du sous-syst�me de r�seau pr�sent� dans cet article est le sch�ma traditionnel de l'ensemble de l'unit� de gestion BD pour passer du processeur NIC, qui est, entre le processeur et le port de cache a int�gr� une fonction de gestion de BD appareil, le moteur est appel� BD (BD moteur, BDE), comme repr�sent� sur la Fig. Le BDE int�gr� dans le processeur d'avoir plus de flexibilit�, mais peut �tre prolong�e dans les informations de description BD de la trame de donn�es. En outre, en raison du BDE peut acc�der directement � la m�moire cache, donc non seulement capable de lire et d'�crire des donn�es plus rapides et BD, et de r�duire davantage le co�t de l'acc�s, PCI-E pour r�duire la pression. Similaire au contr�leur de m�moire, la connexion en utilisant BDE I / O Hub PCI-E pour obtenir avec le processeur.

Lorsqu'une trame de donn�es est re�ue BDE laquelle le BD est lue � partir du cache, alors les donn�es sont d�plac�es � l'adresse correspondante dans la m�moire cache, et peut provoquer le d�crochage de donn�es de la m�moire de pr�-charge. L'architecture du sous-syst�me de r�seau propos� utilise le cache de donn�es dans le cache, plut�t que d'utiliser la carte r�seau de transmission et recevoir des files d'attente. L'extr�mit� de r�ception � haute vitesse actuelle est largement utilis� la technique de r�gulation NIC (Receive Side Scaling, RSS) � un r�seau d'�quilibrage de charge processeur � plusieurs noyaux, de distribution ainsi sera pr�cise nucl�aires une �mission et r�ception dans chaque file d'attente de CPU. Cependant, le cadre d'un tel augmentera le co�t de la carte r�seau, mais affecte �galement l'�volutivit�. architecture am�lior�e maintient la compatibilit� avec la technologie RSS, BDE a �galement r�alis� le mouvement de charge utile dans le cache, et le nettoyage avant du cache de donn�es a �t� copi�.

2.2 Conception BDE

Dans l'architecture traditionnelle, avant d'envoyer et recevoir des donn�es, les besoins NIC � lire la BD via le bus PCI-E, qui produisent beaucoup de retard, tout en augmentant la pression de DMA. Relativement parlant, en raison du BDE peut acc�der directement � la m�moire cache, une interaction plus rapide, ce qui permet de r�soudre efficacement le probl�me. Plus important encore, il peut �tre �tendu afin que les informations BDE BD. Recevoir une information de papier BD est prolong�e r�sultant en une augmentation de la m�moire de donn�es de pause d'information, � savoir, l'adresse de donn�es de page et SKB. Dans l'architecture classique, le BD est g�n�ralement de 16 octets d'informations, y compris l'information d'adresse stock�e dans la longueur de la trame de donn�es, comme VLAN. Sur cette base, ajoute l'adresse de 4 octets et adresse de la page SKB 4 octets, et en fonction du nombre de lignes de cache (ligne de cache), en utilisant deux registres d�di�s pour stocker la longueur SKB et page dans le BDE. Dans l'environnement GbE, g�n�ralement stock� dans le recevoir anneau 1024 BD, BD augmentant ainsi les informations, la r�ception anneau dans la nouvelle structure a augment� seulement 8 Ko.

A titre de comparaison avec l'architecture traditionnelle, le proc�d� suivant, par exemple, des modules de r�ception de donn�es fonctionnelles respectives sont d�crites BDE, la structure telle que repr�sent�e sur la figure. Lorsque la carte r�seau re�oit une trame de donn�es, il ne n�cessite pas l'acquisition de la BD, mais directement dans les trames de donn�es et recevoir des informations de tampon de BDE. Comme la carte r�seau, BDE �galement registres d�di�s pour stocker l'adresse de base et les informations de pointeur BD cycle cycloalkyle. L'unit� d'acquisition de BD registre d'adresse de base de l'anneau, le pointeur d'adresse, le verrou d'adresse correspondant � la BD, et d�clenche alors une requ�te de cache de lecture d'un BD. Apr�s avoir obtenu les donn�es d'adresse de stockage, l'unit� d'�criture de donn�es �crit les donn�es en cache l'adresse correspondante. Pour acc�l�rer l'op�ration d'�criture de donn�es, l'unit� de charge cherchera � trouver des trames de donn�es et pr�chargement. Les donn�es peuvent �tre renvoy�es par une op�ration de recherche ou non dans le cache, lorsque les donn�es ne sont pas dans la recherche de cache, pour trouver l'unit� de chargement logique mat�riel amorcera instruction pr�-acquisition. Lorsque la trame de donn�es dans le cache, BDE et l'�tat du module de mise � jour du module de mise � jour du pointeur BD et des informations pointeur BD sera mis � jour.

Parce que le cache de donn�es dans le cadre apr�s avoir �t� copi� essence de l'application est invalide, afin d'atteindre plus efficacement trame de donn�es au cache mobile, cette architecture de cache de papier expans�, a propos� une nouvelle op�rations de cache: lecture valide. Dans le BDE, de sorte que la ligne de cache du module de transfert de donn�es est invalid�e dans les donn�es d'origine sont copi�es des donn�es claires. Pendant les donn�es de r�plication, le protocole TCP / IP, l'adresse de destination et la longueur des trois registres est contr�l� par l'adresse source du BDE. Dans ce cas, BDE intervalles de ligne de cache d'adresses physique cons�cutives est divis� en une s�rie de blocs. Lorsque vous effectuez une op�ration de lecture est invalide, la source de donn�es de lecture ligne de cache, les donn�es de ligne de cache de lecture �crit � la destination et la source invalide la ligne de cache. Cette op�ration est non seulement pour �viter les donn�es sales inutiles sont r��crites, et ne n�cessite pas les adresses virtuelles � des adresses physiques.

L'architecture am�lior�e permet � la complexit� de la conception de la carte r�seau consid�rablement r�duite, la carte r�seau est plus n�cessaire pour la gestion BD et des mises � jour, vous pouvez �tre re�ue directement par la trame de donn�es MAC PCI-E transmis par la couche sup�rieure, et donc ne pas utiliser une file d'attente de trames de donn�es cache. Cela r�duit non seulement la complexit� de la logique mat�rielle, mais r�duit �galement les frais g�n�raux de stockage.

�valuation exp�rimentale de 3

simulateur Simics pour l'architecture du sous-syst�me r�seau l'ensemble du syst�me pr�sent� dans ce document pour simuler. Simics est un simulateur de syst�me de haute performance, qui fournit un environnement contr�l�, la plate-forme de simulation d�terministe de l'environnement enti�rement virtualis�, peut simuler une vari�t� de CPU, disques durs, cartes r�seau et d'autres . Modeling Language utilisant le dispositif propos� sous-syst�mes de r�seau va �tre d�crit, est con�u avec une fonctionnalit� globale NIC Ethernet Gigabit interruption BDE et un processeur int�gr�, les param�tres de configuration sp�cifiques sont indiqu�s dans le tableau 1. A titre de comparaison lat�rale, respectivement, l'architecture traditionnelle et le sous-syst�me r�seau Architecture DCA (Direct Cache Access) a �t� simul�e.

Exp�rience trois architectures sont connect�es une largeur de bande, le mode duplex liaison Ethernet configurable, et le retard de transmission de liaison sp�cifi�e est de 1 ms. Iperf utilise comme vecteurs de test , des exp�riences ont �t� effectu�es � trois architectures 10 M, 100 M, G 1 et G 10 largeur de bande et de bande passante r�elle correspondant � l'utilisation du processeur de mise au point peut �tre r�alis� trois architectures. Un rapport pr�d�termin� de la largeur de bande th�orique et l'utilisation de bande passante r�elle de la bande passante, la valeur proche de 1 indique que plus le d�bit du r�seau r�el. l'utilisation de la figure exp�rience comparative est repr�sent�e sur la figure. Comme on peut le voir sur la figure, � 10 M et de l'environnement de r�seau 100 M, trois architectures ont atteint la bande passante maximale th�orique. Cependant, lorsque la bande passante �tendue � 1 G et 10 G, la bande passante du r�seau r�el est nettement plus faible que dans l'architecture traditionnelle de la valeur th�orique, l'utilisation de la bande passante �tait de 91,3% et 80,5%, respectivement. Pour le cadre de l'architecture DCA et des am�liorations � la fois l'environnement r�seau 1G essentiellement atteindre les valeurs de bande passante th�orique, alors que dans 10 G environnement r�seau, l'utilisation de la bande passante est l�g�rement plus �lev� que le cadre de l'architecture DCA am�lior�e.

. La figure 5 montre une utilisation du processeur de trois architectures diff�rentes dans des environnements de r�seau. 1 G et � la bande passante de 10 G, l'utilisation du processeur de l'architecture traditionnelle a augment� de mani�re significative, respectivement de 54,1% et 45,2%. Comparer les figures 4 et 5, pour explorer les donn�es exp�rimentales peuvent �tre obtenues en d�pit de l'utilisation am�lior�e de la bande passante et les architectures DCA architecture � 1 G est sensiblement la m�me bande passante, mais il �tait nettement plus �lev� que l'architecture une meilleure utilisation du processeur;. Bande passante � 10 G , l'utilisation de la bande passante et l'utilisation du processeur l'architecture DCA que l'architecture a am�lior� l�g�rement am�lior�e. Pour r�sumer, l'architecture plus traditionnelle et l'architecture DCA, l'architecture am�lior�e a r�alis� un meilleur �quilibre dans l'utilisation de la bande passante et l'utilisation du processeur.

4 Conclusion

Bas� sur le sous-syst�me de traitement de r�seau � grande vitesse l'optimisation des r�seaux d'architecture, l'analyse de l'architecture de r�seau traditionnel et le flux de traitement du sous-syst�me de r�seau, une am�lioration de l'architecture du sous-syst�me de processeur haute performance. L'architecture par unit� de gestion BD pour passer du processeur carte r�seau pour r�soudre le probl�me compliqu� de la gestion BD et la mise � jour de l'architecture traditionnelle, ce qui r�duit la pression d'interagir avec le processeur NIC, syst�me am�lior� le d�bit et l'efficacit� du r�seau. Les recherches futures peuvent se d�velopper dans les aspects suivants: associ� � l'architecture du processeur sp�cifique pour une meilleure mise en uvre de l'architecture du sous-syst�me de r�seau et soutenir le d�veloppement de pilotes pour l'�valuation et la v�rification des performances de l'architecture dans un environnement r�seau r�el.

r�f�rences

KUMAR A, R HUGGAHALLI, MAKINENI S.Characterization d'acc�s � l'ant�m�moire directe sur les syst�mes multi-coeurs et 10gbe // 2009 IEEE 15e Symposium international sur la haute performance informatique Architecture.IEEE 2009: 341-352.

processeur TCP bas� sur UCHIDA pour M.Mat�riel Certains Gigabit Ethernet .IEEE Transactions sur la science nucl�aire, 2008,55 (3): 1631-1637.

WU Z Z, CHEN H C.Design et la mise en uvre du syst�me de moteur de d�chargement TCP / IP sur Ethernet gigabit // Actes de la 15e Conf�rence internationale sur les communications informatiques et Networks.IEEE, 2006: 245-250.

Zhao Xi entier, Liu Xingkui, Shao il y avait, et autres. R�alisation � base de FPGA NIC TOE .Computer Ing�nierie, 2011,37 (3).

Wangshao Gang Xu Wei ya, U Thant, m�thode de communication rapide RDMA pour r�seau peu fiables Universit� du Hunan: sciences naturelles �dition, 2015,42 (8): 100-107.

HUGGAHALLI R, R IYER, acc�s � l'ant�m�moire pour Tetrick S.Direct E / S de r�seau � bande passante �lev�e // ACM SIGARCH Architecture des ordinateurs News.IEEE Computer Society, 2005,33 (2): 50-59.

MILLER D J, WATTS P M, A MOORE futures interconnexions W.Motivating: une analyse de la mesure diff�rentielle de temps de latence pci // Compte rendu du 5e symposium ACM / IEEE sur Architectures pour mettre en r�seau et des communications Systems.ACM, 2009: 94-103.

P S MAGNUSSON, Christensson M, Eskilson J, et al.Simics: Une plate-forme de simulation compl�te du syst�me .Computer, 2002,35 (2): 50-58.

Tirumala A, QIN F, DUGAN J, et al.Iperf: Le protocole TCP / UDP bande passante outil de mesure .http: //dast.nlanr.net/Projects,2005.

Route de la soie

Apprenez � conna�tre la Chine

Am�lioration de la sous-syst�me de r�seau d'architecture de processeur haute performance