programmation d'�tudes multi-curs SMP groupe hybride parall�le

Liu Chao, Zhu Yongzhi

(Qufu Normal University, �cole des sciences de l'information et de l'ing�nierie, Shandong Rizhao 276826)

: � l'heure actuelle, la plupart des syst�mes de conception de mat�riel informatique haute performance en utilisant CPU hi�rarchique, � noyaux multiples comportant une pluralit� de noeuds interconnect�s par un r�seau de stockage partag� � grande vitesse. programmation parall�le hybride distribu� m�moire et la m�moire partag�e entre les noeuds du noeud ont �t� fusionn�s. Les caract�ristiques de l'architecture de cluster de SMP multi-core, le mod�le de programmation pour une �tude plus approfondie de l'inter-MPI / OpenMP, SMP et noeuds multi-coeurs et les m�canismes de parall�lisme � plusieurs niveaux au sein d'un noeud hi�rarchique mixte applicable aux clusters de SMP multi-coeurs en parall�le. Messagerie utilisation compl�te du mod�le de programmation de m�moire partag�e et le mod�le de programmation de leurs propres avantages, la parall�lisation multigrains a �tudi� bas� sur cette m�thode de programmation.

: Multicore groupe SMP, la programmation mixte, MPI / OpenMP

: TP301 Code du document: ADOI: 10,19358 / j.issn.1674-7720.2017.04.006

Format de r�f�rence : Les techniques de programmation �tude [J] Chao, Zhu Yongzhi multi-curs parall�le groupe SMP m�lang� � ses applications, 2017,36 (4): 18-21.

0 introduction

Avec le d�veloppement de la technologie CMP et la promotion de l'architecture de cluster SMP, l'int�gration des deux SMP et MPP caract�ristiques de multi-curs SMP groupe deviennent nouvelle architecture multicoeur et la tendance du d�veloppement traditionnel de calcul haute performance (HPC) est largement utilis� dans le domaine. Cette architecture distribu�e avec les magasins de la m�moire partag�e combinaison d'avantages MPP h�rit�s de la performance et de l'�volutivit�, le SMP peut �tre am�lior�e de d�savantage �volutivit� pauvres, mais a aussi l'avantage de groupes de communication efficaces [1]. Un tel �change de messages entre les noeuds et les noeuds en utilisant le mod�le partag� de programmation parall�le hybride � plusieurs �tages m�moire pour mieux r�pondre aux caract�ristiques du cluster SMP multi-core.

La figure 1 l'architecture SMP grappe multinucl�aire La figure 1 montre l'architecture d'un cluster de SMP � noyaux multiples ayant des noeuds N (chaque noeud pour les deux CPU quatre-core, les cercles repr�sentent le coeur de processeur) de. Par interconnexion BUS / CROSSBAR entre les processeurs et la r�gion de m�moire partag�e et des dispositifs E / S. Multicore SMP nud de r�seau de communication � grande vitesse (par exemple, Myrinet, Ethernet, etc.), l'utilisation de la transmission de messages entre les noeuds communiquent [2].

mod�les de programmation parall�le sur une plate-forme de m�lange

� proprement parler, un mod�le de programmation parall�le est une architecture informatique abstraite [3], il ne d�pend pas de tout type de machine. Mais diff�rentes combinaisons de CPU, mis en place un syst�me parall�le va g�n�rer un certain nombre de mod�les possibles de programmation parall�le. La figure 2 montre la classification de l'internet du mod�le de programmation parall�le mixte.

OpenMP 1.1 mod�le de programmation de m�moire partag�e

Des normes communes pour la programmation OpenMP m�moire partag�e, il est d'�crire des programmes parall�les sur l'API con�u multiprocesseur, dont le but est � la m�moire de programmation parall�le facilement partag�e. Note par l'ajout de directives (directive du compilateur) dans le code source, l'instruction de directive du compilateur du programme pour indiquer la ligne #pragma concurrency. Dans OpenMP, fils parall�les a un tr�s structur�, le mode d'ex�cution parall�le est souvent utilis� ForkJoin [4]: Tout d'abord, le fil principal d'une s�rie en cours d'ex�cution du programme, en parall�le le calcul si on le souhaite, d�riv�e � partir de plusieurs fils conducteurs sont ex�cut�s en parall�le avec le fil principal t�che. Apr�s la fin de l'ex�cution ou est d�riv�e de l'interruption de synchronisation du fil, le flux de retour de commande vers le fil conducteur, comme repr�sent� sur la Fig.

OpenMP est caract�ris� par: la communication implicite; haut niveau d'abstraction; soutien suppl�mentaire parall�le, une grande �volutivit�, la portabilit� est bon support de parall�lisme � grain grossier et � grain fin; primitives de synchronisation orient�es vers l'application, programme parall�le facilement modifi�e, non seulement en syst�me de stockage partag�, peut �tre r�alis� sur une structure de m�moire non partag�e, mais des rendements diff�rents.

1.2 Message MPI passage des mod�les de programmation

message commun passe la programmation MPI standard (Message Passing Interface), il est un langage de programmation, mais un message de liaison dans le langage Fortran ou interface API de langage C et d'une biblioth�que qui passe, son but est de servir la communication inter-processus. Pour un syst�me de stockage distribu�, MPI est un mod�le de programmation naturel, et de r�aliser le mod�le SPMD parall�le, MasterWoker souvent utilis�es modes de fonctionnement: Proc�d� Ma�tre travailleur allou� pour traiter les donn�es; processus de travail re�oit toutes les donn�es correspondantes; chaque processus de calcul de donn�es travailleur; processus de travail envoie les r�sultats du processus principal [5]. Pour envoyer de nouvelles donn�es apr�s chaque it�ration de l'application sont r�p�ter cette logique, en fonction de la nature du probl�me, le processus ma�tre peut avoir � attendre les r�sultats de tous les processus de travail montr� � la figure 4.

MPI caract�ristiques sont les suivantes: communication explicite; rendement �lev�, une bonne transplantation, particuli�rement adapt� pour parall�le � grains grossiers; pluralit� de fonctions de biblioth�que pour optimiser la communication de groupe; en calculant la superposition / communication, pour am�liorer les performances en parall�le. Il peut fonctionner sur un syst�me de stockage distribu� avec le syst�me de stockage partag�, les utilisateurs contr�lent la synchronisation de partitionnement des donn�es et des processus.

Les principales caract�ristiques de cette OpenMP et MPI est repr�sent� dans le tableau 1.

mod�le de programmation hybride 1.3OpenMP / MPI

Liant les caract�ristiques structurelles de polynucl�aires SMP en cluster stockage hi�rarchique, tirer le meilleur parti des deux mod�les de programmation: l'efficacit� de la programmation et l'�volutivit� du stockage distribu� d'un mod�le de stockage partag�. L'id�e de base est la suivante: (1) L'�chelle de la division de MPI de probl�mes, la communication ne se forme pas sous-t�ches denses, (2) chaque sous-t�che (par exemple, un MPI de processus) affect�e � un des noeuds SMP multiconducteur, en se fondant sur le passage de messages entre les noeuds communiquer, (3) sur chaque nud de pr�sentation OpenMP orientation compilateur sous-t�che � nouveau divis� et attribu� aux diff�rents noeuds d'infrastructure traitement ex�cut� en parall�le par plusieurs threads, communiquer en utilisant le noeud de variable partag�e, comme repr�sent� sur la figure .

Mod�le hybride de programmation MPI / OpenMP avantages:

(1) correspondent � la tendance du d�veloppement actuel du mat�riel - une multi-coeur et l'ordinateur � processeurs multiples;

(2) a deux niveaux parall�les clairs: gros grains (par MPI) et fine (pour le OpenMP);

(3) applications ou certaines fonctions du syst�me peuvent limiter le nombre de processus, il peut fournir parall�le OpenMP incr�mentale MPI (probl�mes d'�volutivit�);

(4) Des travaux d'applications dans le d�s�quilibre de charge de la couche de MPI, OpenMP en attribuant un nombre diff�rent de fils de processus MPI pour r�soudre ce probl�me;

(5) OpenMP �vitant la communication suppl�mentaire surcharge provoqu�e par des noeuds de calcul MPI.

L'introduction de OpenMP signifie que le code existant MPI tout en introduisant certains des d�fauts de OpenMP:

Et les restrictions de synchronisation (1) l'attribution des t�ches de contr�le;

(2) la cr�ation de fil et de synchronisation g�n�r�es de t�te;

(3) la d�pendance envers les compilateurs et support de biblioth�que d'ex�cution OpenMP;

(4) les probl�mes de stockage partag�;

(5) peut avoir un Interacting impact n�gatif sur la performance du programme d'ex�cution MPI et OpenMP.

La majeure partie du code est bas� sur un mod�le hybride hi�rarchique, ce qui rend l'utilisation de la taille des particules de grande et moyenne dans la couche parall�le couche MPI et OpenMP utilisant le parall�lisme � grain fin possible. � un niveau �lev�, le programme est configur� pour afficher une pluralit� de t�ches MPI, la s�quence de code d'instructions de guidage OpenMP qui est introduit, est ajout� � tirer avantage des caract�ristiques de stockage partag� multi-threading. Ce mod�le de programmation selon communiquer avec les recouvrements de calcul entre divis�e en deux cat�gories:

(1) non informatique / chevauchement de communication. Tel est divis� en deux fa�ons: uniquement appel� domaine parall�le MPI et � l'ext�rieur du thread principal. L'avantage est qu'aucun noeud SMP de messagerie. L'inconv�nient est inefficace, � savoir, lorsque le principal communicant de fil, un autre fil se met en veille, ne permet pas d'atteindre le calcul de chevauchement / communication. MPI appelle le code d'application en dehors parall�le, mais la communication est compl�t� par une pluralit� de CPU MPI. MPI fil de communication biblioth�que MPI peut �tre effectu�e automatiquement par les biblioth�ques d'applications ou d'affichage en utilisant le thread-safe MPI. Le mode de r�alisation sch�matique repr�sent� sur la Fig.

(2) calculer / chevauchement de communication. Afin de calcul d'�viter au cours de filetage communication MPI OpenMP s�par� du groupe de fils de ralenti ou d'un fil pour g�rer plus de communication et de calcul en parall�le, il devrait �tre appel� � ce stade dans les fonctions MPI critiques, seul ma�tre ou la r�gion correspondante. Il existe deux m�thodes: lorsque la communication effectu�e par le fil principal (ou le num�ro du fil), toutes les communications sont inject�s dans le fil conducteur, le fil ex�cute toutes les autres t�ches informatiques de transmission de donn�es; Lorsque chaque fil a une demande de communication, la communication il sera inject� dans plusieurs threads. Calcul / recouvrement repr�sent� sur la figure 7 est une vue sch�matique d'un programme.

2 la mise en uvre de programmation mixte hi�rarchique

parall�le hybride de programmation pour r�soudre les probl�mes de la strat�gie standard de base est, de ce point de vue, il y a une m�moire distribu�e et la m�moire partag�e programmation MPI OpenMP, qui constitue la base pour le d�veloppement de la strat�gie de programmation mixte. L'utilisation de MPI existant ou OpenMP Code de construction d'applications parall�les hybrides, suit pr�cis�ment que:

(1) modifi� avec OpenMP MPI. C'est un simple mode de programmation hybride, seules les commandes d'orientation d'origine OpenMP compil�s dans les segments de code de boucle ext�rieure. Sa performance est partie du cycle de calcul d�pendant peut OpenMP solution parall�le (g�n�ralement parall�lisme � grain fin). Cela facilite la communication d'application obligatoire, car elle r�duit le nombre de processus MPI ont besoin de communiquer. Toutefois, si plus programme de cycle, les directives compilateur utilis� par un domaine de plus en plus, ou cr�er une t�te de synchronisation de fil parall�le augmentera [6]. Par cons�quent, lors de la diffusion du parall�lisme de niveau, le temps global devrait �tre pr�f�r� dans un cycle de temps de calcul de plus grande proportion [7]. Ce qui suit est un m�lange grains fins pseudo code de programme:

#include "mpi.h"

#include "omp.h"

......

// une informatique et de la communication MPI

#pragma omp Paralle num_threads (...)

#pragam OMP pour un usage priv� (...)

pour (...)

{} // Calcul

MPI_Finalize;

(2) en utilisant la modification de MPI OpenMP. Cette m�thode (parall�lisme de gros grains) est diff�rent des anciens dont on a besoin d'examiner comment chaque processus communique avec d'autres processus, il peut exiger une refonte compl�te du parall�lisme. instructions d'orientation sont typiquement programme compil� dans la couche la plus externe, suivi des processus MPI OpenMP pour g�n�rer fil, le mode fil de SPMD g�n�r� dans le processus est similaire, � savoir la m�me ex�cution de code sur les diff�rents segments de donn�es. Et diff�re en ce que chacun des processeurs � la m�moire de DGBS part multinucl��es noeud SMP, sans pr�-donn�es est affect� � chaque processeur. L'avantage de cette m�thode est l'utilisation de moins commandes d'orientation du compilateur OpenMP, en appelant la faible surcharge de communication. Cependant, OpenMP multi-thread analogue multi-processus � l'utilisation de MPI, en particulier lors de l'utilisation d'un mod�le mixte parall�lisme au niveau des multiples, la complexit� de la programmation augmentera. Ce qui suit est une partie pseudo-m�lange OpenMP code:

......

omp_set_num_threads (...)

priv� (...) #pragma omp paralle

th_id = omp_get_thread_num;

th_size = omp_get_num_threads;

Calcul} {..//

La barri�re de #pargma

ma�tre #pargma omp / single

} {... // communication MPI

...... // communication MPI

......

exp�rience 3

Compte tenu des facteurs � la fois la performance et la facilit� d'utilisation, nous utilisons un ensemble SMPD sch�ma similaire: le noeud en parall�le avec le parall�lisme � grain fin OpenMP MPI entre les nuds � gros grains, � savoir, hybride OpenMP / programmation niveau MPI. S�lectionnez la multiplication de matrices de cas, comparer les diff�rences de performance pr�sent� la programmation mixte Nonhybirid en diff�rentes tailles de la matrice et le nombre de curs d'ex�cution cas.

3.1 groupe HPC Aube TC5000

Este syst�me de grappe de calcul TC5000 puissance globale de 5,7 teraflops, un A620rH en tant que noeud de gestion, six CB65 fournit des noeuds de calcul de stockage, un r�seau de disques. Chaque nud a deux lames de calcul AMD Opteron61282 GHz processeur quad-core, un total de huit noyaux, l'ensemble du cluster avec 144 Go de m�moire.

Cluster Environnement Logiciel: SUSE Linux Enterprise Server 10SP syst�me d'exploitation; environnement parall�le: la version MPI MPICH2, compilateur GCC4.2.4, les services de partage de fichiers NFS-; InfiniBand communications de gestion de r�seaux informatiques parall�les � haute vitesse.

3.2 R�sultats exp�rimentaux et analyse

6 cluster � l'aide des noeuds de calcul double quad-core ex�cutant le code MPI MPI / OpenMP test de comparaison de code. Lors de l'ex�cution d'un code mixte MPI / OpenMP, chaque noeud de calcul est associ� un processus de MPI et huit fils (threads dans un noeud ne doit pas d�passer le nombre de processeurs physiques [7]). Il convient de noter que, dans le noyau du calcul de la multiplication de la matrice, en ce que deux boucles sont ex�cut�es en parall�le. Si la boucle interne parall�le, chaque it�ration de l'op�ration externe de la boucle de programme sont ex�cut�es ForkJoin threads, cela peut �tre plus �lev� que le temps de t�te pour parcourir l'int�rieur du parall�le multi-filet� enregistr�, si les boucles ext�rieures parall�les la technologie, l'utilisation d'une op�ration ForkJoin, et le programme permet une plus grande granularit�. Taille matrice utilis�e dans le programme sont de 500 � 000 � 1500,1000,1500 x 1500. Comme le montre le tableau 2, le tableau correspondant � chacune des valeurs de point de temps sont la moyenne de cinq essais. D'apr�s le tableau 2,. La figure 8 temps d'ex�cution et le taux d'acc�l�ration de la taille de la matrice peut �tre clairement vu r�aliser le m�lange acc�l�ration des proc�dures de programme MPI / OpenMP et MPI lorsque diff�rents noeuds. Comme le nombre de noeuds augmente, le rapport de m�lange de l'acc�l�ration programm�e sensiblement plus �lev� que l'acc�l�ration pure de MPI. En raison de l'utilisation du CPU lors de l'ex�cution programme MPI, n'a pas d'utiliser pleinement les ressources du processeur, et plus mixte utilisation du processeur de programme, ce qui valide encore l'impact de l'utilisation OpenMP multi-thread performances du processeur multi-core du programme ( ces r�sultats ont �t� obtenus en l'absence de toute mesure d'optimisation en cas).

4 Conclusion

Cet article analyse les caract�ristiques de l'architecture de cluster multi-core en parall�le SMP, la recherche applicable aux clusters SMP multi-core de mod�le de programmation parall�le hybride, il y a un probl�me de d�s�quilibre de charge et l'�volutivit� mauvaise pour les programmes MPI utilisant le programme de r�forme OpenMP MPI, ce parall�lisme � grain fin MPI + OpenMP est plus facile � mettre en uvre et peut am�liorer les performances du programme. On ne sait pas que la programmation pour le cluster SMP multi-core est le plus m�canisme efficace, il y a beaucoup de probl�mes � r�soudre, ce qui n�cessite une �tude plus approfondie.

r�f�rences

. [1] Sun Ninghui, Kai, Chen Mingyu HPP: l'architecture pour supporter de hautes performances et informatique utilitaire [J] Computer Journal, 2008,31 (9) :. 15031508.

[2]. RABENSEIFNER R, HAGER G, G. JOST hybride MPI / OpenMP programmation parall�le sur les clusters de nuds multicore SMP [C] Actes du 17 Euromicro Conf�rence internationale sur le parall�le, DISTRIBU� et Networkbased traitement 2009 :. 427 436.

... [3] A Kotobi, ABDUL HNAW, OTHMAN M, et al analyse des performances des hybrides OpenMP / MPI bas� sur une architecture de cluster multicore [C] 2014 Conf�rence internationale sur, IEEE 2015 Computational Science et technologie (ICCST): 16.

[4] MATTSON T G, B SANDERS A, MASSINGILL B. Mod�les de programmation parall�le [M]. AddisonWesley Professional 2005.

[5] A CASTELLANOS, MORENO A, SORRIBES J, et al mod�le de performance pour les applications hybrides ma�tre / travailleurs sur les clusters multi-curs [C] IEEE Conf�rence internationale sur le calcul haute performance et des communications, 2013: .. 210217.

[6] parall�le hybride Zhuyong Zhi multicoeur SMP mode programme de recherche et d'analyse de cluster [J] Electronic Technology, 2016 (2): 72-75.

[7] Yong, Chen GL, Chunsheng, autre �tude du mod�le de programmation [J] SMP groupe mixte Mini-Micro Systems, 2004, 25 (10): 1763-1767.

Route de la soie

Apprenez � conna�tre la Chine

programmation d'�tudes multi-curs SMP groupe hybride parall�le