Analyse et optimisation des puces de t�l�phone mobile des moyens d'�valuation de la performance de la bande passante

Gang Mu

(Ju noyau (Zhuhai) Ltd, Guangdong Zhuhai 519085)

: La bande passante mobile d�bit la performance est un indicateur important de l'impact global de la performance des t�l�phones mobiles, presque tous les logiciels d'�valuation de t�l�phone tiers a un indicateur de ces tests individuels. Mais ces tests sont fondamentalement il y a des probl�mes, il ne refl�te pas enti�rement la vraie bande passante, le d�bit des performances du t�l�phone. Les articles du point de vue mat�riel analyse approfondie de l'impact de la mise en uvre des CPU, des modules Cache, DDR pour les logiciels de test de bande passante, combin�e avec le plus couramment utilis� CPU s�rie ARM pour faire une comparaison. Enfin, la nouvelle bande passante d�bit des m�thodes d'�valuation des performances.

: La bande passante, les donn�es d�bit; Cache; DDR

: TP368.1 Code du document: ADOI: 10,19358 / j.issn.1674-7720.2017.09.024

Format de r�f�rence : Mou analyser juste et optimiser les moyens d'�valuation des performances de largeur de bande � puce de t�l�phonie mobile [J] ses applications, 2017,36 (9): 81-84.

0 introduction

Avec la prolif�ration rapide des t�l�phones intelligents, les livraisons mondiales 2015 ont atteint 14 millions d'unit�s. Plus de la moiti� qui font partie du syst�me de t�l�phonie mobile Android, son syst�me d'exploitation de base est fondamentalement la m�me, mais ont des plates-formes mat�rielles sur. �valuation de t�l�phone de la performance du mat�riel est devenu le centre de l'industrie ainsi que l'int�r�t pour l'utilisateur [1]. Par cons�quent, l'�valuation tiers des logiciels de t�l�phonie mobile est n�. Le logiciel d'�valuation est souvent une performance mat�rielle compliqu�e dans le num�ro un clair, de sorte que les consommateurs de la mani�re la plus intuitive pour comprendre le niveau de performance d'un t�l�phone cellulaire. En raison de sa simplicit� et intuitif � utiliser, non seulement les t�l�phones mobiles consommateurs finaux utilisent souvent comme une s�lection du combin� de r�f�rence, de nombreux fabricants utilisent �galement ces programmes comme base pour le logiciel d'�valuation de la puce de t�l�phone mobile s�lectionner.

puces de contr�leur de t�l�phonie mobile modernes sont des syst�mes multi-core, la puissance de calcul est en croissance, mais pour am�liorer les performances de la m�moire a �t� limit�e [2]. Par cons�quent, les performances de la m�moire devient souvent un goulot d'�tranglement dans les performances du syst�me, il est particuli�rement important de bande passante m�moire de test des performances d�bit. Cet article analysera certaines des limites actuelles du logiciel de test de performance de bande passante, d'explorer les facteurs qui influent sur la performance de la bande passante tester une combinaison de conception mat�rielle, le test final de la direction de l'optimisation des performances de la bande passante.

limitations de bande passante de test 1CPU

T�l�phone puce principale est un SoC complexe (System on Chip), et plusieurs p�riph�riques ma�tre peut acc�der � la DDR (m�moire), la complexit� des contr�leurs de DDR sont devenus plus sophistiqu�s, il peut coordonner tous les principaux �quipements d'acc�s d'�quilibrage. Mais en plus de la CPU, l'autre tiers utilisateur du dispositif ma�tre est pratique directement contr�l� par le logiciel, tel qu'un module codec vid�o, ces modules n�cessitent des pilotes sp�cialis�s pour le contr�le, et le pilote est fourni par le fabricant de mat�riel, un tiers les utilisateurs ne comprennent pas les d�tails. Donc, en g�n�ral est l'utilisation de l'acc�s � la vitesse du processeur statistique DDR pour �valuer la bande passante totale d�bit puce de performance. Cela pose un probl�me, vous pouvez ex�cuter au programme de test CPU pleine vitesse n�cessite une bande passante inf�rieure � la bande passante th�orique de DDR peut fournir, la bande passante d�bit performance est limit�e par la capacit� de lire et les commandes d'�criture �mises CPU, plut�t que limit�e � la DDR .

Par exemple, afin de rendre la simulation CPU ARM cortexA9, l'interface de CPU pour un acc�s de m�moire suspendue au-dessus d'un mod�le de DDR 32-bit (il y a une r�ponse imm�diate � une demande d'acc�s, aucun retard), la fr�quence du processeur de 1008 MHz, les donn�es mesur�es de copie la largeur de bande est de 2140 Mo / s. Et le t�l�phone sera g�n�ralement dispos� 540 MHz 32 bits DDR, la bande passante th�orique de fournir 4320 Mo / s, bien au-dessus Cortex-A9 d�bit de bande passante et les performances de la bande passante obtenue dans ce cas, seul le test de l'acc�s � la m�moire CPU la performance, plut�t que la performance globale de la bande passante de la DDR.

L'impact 2Cache test de d�bit de bande passante

Maintenant, le logiciel d'�valuation des performances de d�bit de bande passante utilise l'acc�s vitesse CPU statistiques DDR pour �valuer la bande passante totale d�bit puces de performance, qui doivent prendre en compte l'impact de la CPU Cache.

Pour un acc�s rapide aux donn�es, le processeur � plusieurs noyaux moderne comprend typiquement un cache priv� (L1 Cache) et une m�moire cache partag�e final (L2) [3]. L1 Taille du cache est habituellement des dizaines de Ko, L2 Cache a g�n�ralement des centaines de Ko � plusieurs MB. l'acc�s du processeur aux donn�es via le cache puis DDR. CACHE permettent d'obtenir diff�rents comportements peuvent entra�ner des diff�rences �normes dans la quantit� d'acc�s CPU au DDR.

Actuellement la quasi-totalit� puce principale de t�l�phone mobile utilise la famille ARM Cortex CPU, suite � la plus CPU s�rie cortex ARM populaire (A5, A7, A9, A53) d'analyser l'impact des diff�rentes CPU de configuration des performances d'acc�s m�moire cache.

�crire 2.1 paires d'adresses cons�cutives

vitesse du processeur de l'adresse d'�criture continue est un indice important qui refl�te la performance de la bande passante du logiciel d'exploitation memset correspondant, �crit en langage C comme suit:

int * dst;

pour (int i = 0; i < compter; i ++)

* Dst = valeur

En fait, en raison de la pr�sence de cache, la valeur est �crite directement � la DDR. Pour ARM cortexA5 et CPU cortexA9, le processus comme indiqu� sur la figure.

donn�es cache L1 g�n�ralement configur� pour �crire de nouveau + �criture allouer. Cependant, processeur ARM pour toutes les s�ries cache L1 sont optimis�s: d�tecter en continu trois fois l'adresse de ligne de cache d'op�rations d'�criture, qui passe automatiquement en �criture par �criture + pas allouer. On peut voir que seules les trois premi�res lignes du cache (0x1000000 ~ 0x1000040) des donn�es lues � partir du DDR dans les donn�es figure L1 Cache, les donn�es sont �crites directement � l'arri�re du cache L2.

CortexA5 et cortexA9 de cache L2 encore �crire en arri�re + �criture allouer. Mais pas semblable au cache L1 passe automatiquement en �criture � + comme m�canisme d'�criture n'allouer. Par cons�quent, chaque fois que des donn�es sont �crites dans le cache L2, devrait �tre affect� � lire la taille d'une adresse de ligne cache correspondant aux donn�es de la DDR L2 Cache, puis faire une bonne Cache op�ration d'�criture en ligne � partir des donn�es L1 distribution Cache. Mais en fait les donn�es L1 Taille du cache chaque fois qu'une op�ration d'�criture � la ligne Cache L2 Cache est que l'ensemble de la ligne de cache sont r��crites, afin qu'ils ne se soucient pas ce que la ligne DDR cache correspondant aux donn�es d'adresse est en place. Ici L2 Cache directement affect� � une ligne Cache pour contenir les donn�es L1 cache en �criture sur les donn�es, ne vont pas lire DDR.

Et le cas ARM cortexA7 cortexA53 il y a diff�rentes, comme le montre la figure 2.

CortexA7 cortexA53 et les donn�es L1 Cache m�canisme similaire au pr�c�dent, mais les diff�rentes impl�mentations de cache L2. Il est �galement un dos d'�criture + �criture allouer, mais il existe des m�canismes de d�tection automatique 127 D�tecte adresses cons�cutives Cache op�ration d'�criture de ligne peut faire basculer automatiquement une �criture � + �criture sans affecter. 2, les donn�es apr�s l'adresse 0x1002000 directement �crit dans le DDR.

Selon l'analyse ci-dessus, les donn�es relatives � l'op�ration d'�criture du processeur vers l'ext�rieur, � moins d'une certaine taille, ne fonctionne pas r�ellement DDR, mais en fonctionnement L2 Cache. Le tableau 1 est une comparaison des deux t�l�phones memset les performances du processeur � la m�me fr�quence, ils sont utilis�s ARM cortexA7 CPU et cortexA9.

Comme on peut le voir � partir des donn�es de la table, lorsque la taille est inf�rieure � 10 Ko, le rendement cortexA9 est meilleure que cortexA7, cette fois, est l'acc�s au cache L2, les performances du processeur est d�termin�e par la capacit� d'instructions d'�mission et la capacit� de pipeline d'ex�cution d'ordre ces capacit�s sont plus fortes que cortexA9 cortexA7. Dans le 10 KB < taille < Lorsque 100 KB, cortexA9 plus �vident que cortexA7 bonne performance, parce que le cortexA7 a commenc� � �crire directement au processus de DDR, tandis que l'acc�s cortexA9 encore L2 Cache. taille > �Lorsque 100 Ko, la performance cortexA9 progressivement cortexA7 feu vert, car � ce cortexA9 temps a �galement commenc� � avoir acc�s � l'op�ration DDR, plus la taille repr�sentait l'acc�s DDR, et enfin presque enti�rement une visite � la DDR . A cette performance est principalement d�termin�e par les performances de la DDR.

2.2 adresses cons�cutives op�ration de lecture

La CPU lit la vitesse des adresses continues est un indice important qui refl�te la performance de la bande passante, peut �tre utilis� dans le langage C comme suit:

int * src;

pour (int i = 0; i < compter; i ++)

value = * (src + i);

Cortex-A9 cortexA5 et la non-exclusive L2 mode de cache, � savoir L1 miss, DDR relues de la ligne cache seront stock�s dans le cache L2. 3.

CortexA7 cortexA53 et le mode Cache L2 est exclusif, � savoir L1 miss, DDR relues de la ligne cache ne sont pas stock�es dans le cache L2. Seulement lorsque la r��crite de la brosse ligne Cache L1 d�posera � la L2 Cache. 4.

Plus de deux impl�mentations ont des avantages et des inconv�nients. Ce faisant test de performance de lecture r�p�t�e, si la quantit� de donn�es est plus petite que les donn�es L1 Taille du cache, le mode exclusif et une performance en mode non exclusif consid�rablement. Lorsque la quantit� de donn�es dans la taille des donn�es cache L1 et L2 est inf�rieure � la taille du cache, une meilleure performance du mode non exclusif. Lorsque les donn�es est sup�rieure � L2 Taille du cache, les performances du mode exclusif �tait un peu mieux, sauf s'il y a d'autres op�rations de lecture � des op�rations d'�criture, l'avantage exclusif de performances en mode est encore plus �vidente, car l'op�ration de lecture prend moins dans ce mode de cache L2 , l'utilisation peut �tre affect� � d'autres op�rations.

2.3 Performance Data Copy

copie des donn�es est le comportement le plus d'acc�s � la m�moire commune des tests de logiciels CPU, les performances de la bande passante est la m�thode de test le plus couramment utilis�. Contient des donn�es copi�es � partir de l'adresse source d'une donn�e op�ration de lecture et une op�ration d'�criture de donn�es � l'adresse cible. En g�n�ral, les adresses de donn�es sont continues. Discut�es dans les deux adresses d'�criture et de lecture cons�cutifs op�rations, ces deux propri�t�s qui pr�c�de d�termine aussi sensiblement les performances de la copie des donn�es.

De plus, les processus de DDR contr�leur lecture et d'�criture des donn�es de remplacement seront �galement affecter les performances de la copie.

lignes d'adresse DDR en banque, ligne et colonne. Une banque ne peut �tre ouvert simultan�ment dans une rang�e, mais dans une autre banque de la ligne peut �tre ouvert simultan�ment. Pour profiter de cette fonctionnalit� pour optimiser l'efficacit� de l'acc�s DDR, banque, ligne et adresse de colonne correspondant � un mode d'adresse physique sera con�u avec une vari�t� de mani�re cartographique [4]. La figure 5 est un agencement d'adresses de t�l�phone mobile.

Supposons que pour la copie des donn�es l'adresse source 0x100000 (correspondant � row2, BANK0), l'adresse de destination est 0x200000 (correspondant � row4, BANK0), qui correspondent � diff�rentes lignes de la m�me banque. Lire un ensemble de donn�es � partir de l'adresse source de taille cacheline, besoin d'ouvrir bank0_row2 DDR, et les donn�es de CPU est �crit � l'adresse cible ce groupe, vous devez fermer bank0_row2, puis bank0_row4 ouvert. Dans cette lecture alternative et un processus �crit, il est proche d'une rang�e de DDR et op�ration d'ouverture prend plus de temps.

La m�me copie des donn�es fait encore si, ne pas �teindre l'bank0_row2 si l'adresse de destination dans 0x201000 (correspondant � bank1_row4), ne pas �crire � bank1_row4 directement ouvrir. Depuis la ligne et les adresses source et destination ne sont pas proches, lisez et op�rations d'�criture ne doivent pas faire la ligne arri�re de l'op�ration d'ouverture, ce qui am�liore grandement les performances de la copie des donn�es. Le tableau 2 est un t�l�phone mobile (en utilisant le processeur Cortex-A9) les donn�es de test de performance � l'adresse de destination de copie des conditions diff�rentes.

On peut voir simplement changer l'adresse de destination pour faire des copies des donn�es de performance des adresses cons�cutives il y a une grande diff�rence entre l'�viter d'adresse de lecture de la collision de copie des donn�es des performances peut �tre am�lior�e de 31%.

Tests d'optimisation de la performance de la bande passante direction 3

Une analyse ant�rieure des limites actuelles des tests de performance de la bande passante de t�l�phonie mobile, associ� au mat�riel con�u pour explorer les facteurs qui affectent les tests de performance de bande passante. Sur la base de ces facteurs peuvent encore �tre optimis�s pour am�liorer le mode de test de performance de la bande passante des aspects suivants:

(1) une pluralit� de dispositifs ma�tres acc�der simultan�ment � la DDR, DDR possible d'atteindre une limite de bande passante. T�l�phone puce principale en plus de CPU, la demande de bande passante est le plus grand GPU [5], alors que le GPU peut g�n�ralement par le fonctionnement du logiciel openGL sup�rieur. Des modes de r�alisation de GPU peuvent �tre mesur�es au moyen d'une pluralit� de couches superpos�es d'op�ration, cette op�ration est faible demande pour la capacit� de calcul du processeur graphique, besoins en bande passante. Dans le test, de sorte que l'ex�cution des donn�es � forte intensit� de CPU l'op�ration de copie, tandis que le GPU ne couches superpos�es, � la fois le temps d'ach�vement r�el est donn� score d'�valuation de la performance de la bande passante.

(2) copier des donn�es, un test de performance du processeur, la quantit� de donn�es est beaucoup plus grande que la taille du cache L2 ne pas affecter le cache. En plus des donn�es continues copier l'adresse, mais augmentent �galement les donn�es lues adresses discontinues de test de performance, afin de ne pas affecter la fonction de la pr�lecture CPU, plus refl�ter de mani�re r�aliste un d�lai unique de la DDR. Le code C est le suivant:

int * src;

pour (int i = 0; i < compter; i + = STRIDE)

value = * (src + i);

Notez que la valeur est sup�rieure � deux la taille de ligne de cache STRIDE, afin de ne pas d�clencher l'op�ration de pr�lecture de la ligne de cache en continu. Copier les donn�es lisent les donn�es de performance et une adresse de liaison discontinues adresses cons�cutives �valu�es et not�es.

(3) Effet des adresses diff�rentes d'une �tude approfondie sur les donn�es de performance de copie, de copie de donn�es � plusieurs reprises des op�rations effectu�es, chaque fois qu'un changement des donn�es d'adresse de cible de compensation, tels que le code C suivant:

int * src, * dst;

for (int j = 0; j < loop_count; j ++)

pour (int i = 0; i < compter; i ++)

* (Dst + i + j * 0x1000) = * (src + i);

4 Conclusion

bande passante tiers d�bit logiciel de test de performances fournit non seulement les moyens pour les consommateurs finaux de comparer les performances des t�l�phones mobiles, mais fournit �galement une base fiable pour les fabricants de t�l�phones mobiles pour programmer la puce s�lectionner, m�me les �diteurs de logiciels de conception de puces les plus en amont utiliseront �galement ces tests pour guider l'architecture de puce elle con�oit. L'optimisation de la bande passante d�bit tester les performances dans le pr�sent document peut �tre plus pleinement et �valuer �quitablement les performances r�elles des puces de t�l�phonie mobile, pour acc�l�rer la convergence des probl�mes de performance de conception de puces, avec de bons r�sultats.

r�f�rences

[1] Yang Yijun, Huang Daqing .Android outil de test de t�l�phone de performance automatis�e de recherche et d�veloppement [J] Applications informatiques, 2012,32 (2): 554-556.

[2] WULF W A, S MCKEE A. frapper la paroi de la m�moire: implications de l'�vidence [J] SIGARCH Comput Archit Nouvelles, 1995,23 (1): 20-24 ....

[3] haute Ke, Chen Li Cheng, Fan Dongrui, telles que l'allocation des ressources m�moire et de recherche de gestion [J] syst�mes multicurs partag�s Journal des ordinateurs, 2015,38 (5): 1021-1031.

[4] SHAO J, DAVIS B T. Le mappage d'adresses SDRAM bitreversal [J] Dans LUNETTES '05. Actes de l'Atelier 2005 sur les logiciels et compilateurs pour les syst�mes embarqu�s, ACM, 2005: 62-71.

[5] architectures h�t�rog�nes li�es � l'examen technique Xuxin Hai, Lin Yu, Fei Wei YI .CPUGPGPU [J] g�nie informatique et de la Science, 2009, 8 (4): 74-76.

Route de la soie

Apprenez � conna�tre la Chine

Analyse et optimisation des puces de t�l�phone mobile des moyens d'�valuation de la performance de la bande passante