4 cœurs, 2 caches ?

Yliur

11/01/2011 à 23:14

Le Tue, 11 Jan 2011 11:51:20 +0100
Lucas Levrel a écrit :

Bonjour,

Soit une station équipée d'un processeur Xeon E5440. La bête a 4
cœurs et, dans les docs d'Intel, 12 MB de cache parfois présentés
comme 2×6 MB.

Je lance un programme qui exécute plusieurs threads effectuant la
même tâche (sur une même quantité de données différentes). Quand il y
a 4 threads, ils finissent à peu près en même temps. Quand il y en a
3, il y en a toujours un qui finit nettement avant les autres.

Si l'on ajoute le fait que /proc/cpuinfo annonce 6 MB de cache pour
chaque cœur, ça m'amène à croire qu'il y a deux blocs de 6 MB cache,
chacun partagé par deux cœurs.

Il n'y aurait pas que deux coeurs réels, vus comme 4 coeurs virtuels ?
Intel appelle ça Hyperthreading, mais je ne sais pas si c'est le cas
sur ce modèle de processeurs.

Mes questions sont : comment savoir
quels cœurs sont « appariés »

Ça je ne sais pas, ni même si on peut le savoir.

et comment fixer un thread sur un cœur
donné (l'idée étant de ne lancer que deux threads, sur des cœurs non
appariés) ? Ou est-ce qu'en lançant seulement deux threads le système
va automatiquement les mettre sur des cœurs non appariés (ce qui est
le plus performant) ?

C'est son travail (au système). Inquiète-toi seulement s'il ne le fait
pas.

Lucas Levrel

12/01/2011 à 11:24

Le 11 janvier 2011, Yliur a écrit :

Il n'y aurait pas que deux coeurs réels, vus comme 4 coeurs virtuels ?
Intel appelle ça Hyperthreading, mais je ne sais pas si c'est le cas
sur ce modèle de processeurs.

Bonne idée. Sur la page
http://ark.intel.com/Product.aspx?id3082&processorå440&spec-codes=SLANS,SLBBJ
ils disent « # of cores : 4, # of threads : 4, Hyperthreading : No », donc
c'est bien 4 cœurs réels.

Mes questions sont : comment savoir quels cœurs sont « appariés »

Ça je ne sais pas, ni même si on peut le savoir.

À propos : dans le cpuinfo on voit que processor n'est pas égal à core
id. Est-ce que processor est créé dynamiquement au boot et peut être
associé différemment aux core id au prochain boot ? (À la manière des
/dev/sdX qui peuvent être associés à différents disques, seuls les
/dev/disk/by-uuid/XXX étant stables.)

C'est son travail (au système). Inquiète-toi seulement s'il ne le fait
pas.

OK.

--
LL

Alain Ketterlin

12/01/2011 à 12:28

Lucas Levrel writes:

Soit une station Ã©quipÃ©e d'un processeur Xeon E5440. La bÃª te a 4 cÅurs
et, dans les docs d'Intel, 12 MB de cache parfois prÃ©sentÃ©s com me 2Ã6
MB.

Oui, il me semble que ce sont en fait deux dual-core assemblÃ©s sur la
mÃªme puce.

Je lance un programme qui exÃ©cute plusieurs threads effectuant la m Ãªme
tÃ¢che (sur une mÃªme quantitÃ© de donnÃ©es diffÃ©ren tes). Quand il y a 4
threads, ils finissent Ã peu prÃ¨s en mÃªme temps. Quand il y en a 3, il
y en a toujours un qui finit nettement avant les autres.

Et quand il n'y en a que 2 ? Le temps total est-il plus faible ?

Si l'on ajoute le fait que /proc/cpuinfo annonce 6 MB de cache pour
chaque cÅur, Ã§a m'amÃ¨ne Ã croire qu'il y a deux blocs de 6 MB cache,
chacun partagÃ© par deux cÅurs. Mes questions sont : comment sav oir
quels cÅurs sont Â«Â appariÃ©sÂ Â» et comment fi xer un thread sur un cÅur
donnÃ© (l'idÃ©e Ã©tant de ne lancer que deux threads, sur des cÅurs non
appariÃ©s) ?

Je ne pense pas qu'on puisse dÃ©terminer l'appariement, mais je serais
surpris qu'il se passe des choses subtiles.

Pour l'affinitÃ© (d'un thread/process sur un cpu), tu peux essayer
la commande taskset, voire sched_setaffinity/pthread_setaffinity_np, Ã
condition d'avoir les infos.

Ou est-ce qu'en lanÃ§ant seulement deux threads le systÃ¨me
va automatiquement les mettre sur des cÅurs non appariÃ©s (ce qu i est
le plus performant) ?

Si quelqu'un connaÃ®t la rÃ©ponse...

Le code est en C++ et utilise la bibliothÃ¨que TBB (threading building
blocks) d'Intel, mais je peux passer Ã une autre (pthread ?) si
besoin.

Il me semble que TBB dÃ©conseille de jouer directement avec les threads
sous-jacents. Selon la complexitÃ© de ton programme, tu risques de perd re
plus Ã te passer de TBB que de jouer avec les affinitÃ©s. Si ce n' est pas
le cas, c'est une bonne idÃ©e de jongler avec les paramÃ¨tres, mais c'est
un sport diffÃ©rent.

-- Alain.

Lucas Levrel <lucas.levrel@u-pec.fr> writes:

Soit une station Ã©quipÃ©e d'un processeur Xeon E5440. La bÃª te a 4 cÅurs
et, dans les docs d'Intel, 12 MB de cache parfois prÃ©sentÃ©s com me 2Ã6
MB.

Oui, il me semble que ce sont en fait deux dual-core assemblÃ©s sur la
mÃªme puce.

Je lance un programme qui exÃ©cute plusieurs threads effectuant la m Ãªme
tÃ¢che (sur une mÃªme quantitÃ© de donnÃ©es diffÃ©ren tes). Quand il y a 4
threads, ils finissent Ã peu prÃ¨s en mÃªme temps. Quand il y en a 3, il
y en a toujours un qui finit nettement avant les autres.

Et quand il n'y en a que 2 ? Le temps total est-il plus faible ?

Si l'on ajoute le fait que /proc/cpuinfo annonce 6 MB de cache pour
chaque cÅur, Ã§a m'amÃ¨ne Ã croire qu'il y a deux blocs de 6 MB cache,
chacun partagÃ© par deux cÅurs. Mes questions sont : comment sav oir
quels cÅurs sont Â«Â appariÃ©sÂ Â» et comment fi xer un thread sur un cÅur
donnÃ© (l'idÃ©e Ã©tant de ne lancer que deux threads, sur des cÅurs non
appariÃ©s) ?

Je ne pense pas qu'on puisse dÃ©terminer l'appariement, mais je serais
surpris qu'il se passe des choses subtiles.

Pour l'affinitÃ© (d'un thread/process sur un cpu), tu peux essayer
la commande taskset, voire sched_setaffinity/pthread_setaffinity_np, Ã
condition d'avoir les infos.

Ou est-ce qu'en lanÃ§ant seulement deux threads le systÃ¨me
va automatiquement les mettre sur des cÅurs non appariÃ©s (ce qu i est
le plus performant) ?

Si quelqu'un connaÃ®t la rÃ©ponse...

Le code est en C++ et utilise la bibliothÃ¨que TBB (threading building
blocks) d'Intel, mais je peux passer Ã une autre (pthread ?) si
besoin.

Il me semble que TBB dÃ©conseille de jouer directement avec les threads
sous-jacents. Selon la complexitÃ© de ton programme, tu risques de perd re
plus Ã te passer de TBB que de jouer avec les affinitÃ©s. Si ce n' est pas
le cas, c'est une bonne idÃ©e de jongler avec les paramÃ¨tres, mais c'est
un sport diffÃ©rent.

-- Alain.

Vous avez filtré cet utilisateur ! Consultez son message

Lucas Levrel writes:

Soit une station Ã©quipÃ©e d'un processeur Xeon E5440. La bÃª te a 4 cÅurs
et, dans les docs d'Intel, 12 MB de cache parfois prÃ©sentÃ©s com me 2Ã6
MB.

Oui, il me semble que ce sont en fait deux dual-core assemblÃ©s sur la
mÃªme puce.

Je lance un programme qui exÃ©cute plusieurs threads effectuant la m Ãªme
tÃ¢che (sur une mÃªme quantitÃ© de donnÃ©es diffÃ©ren tes). Quand il y a 4
threads, ils finissent Ã peu prÃ¨s en mÃªme temps. Quand il y en a 3, il
y en a toujours un qui finit nettement avant les autres.

Et quand il n'y en a que 2 ? Le temps total est-il plus faible ?

Si l'on ajoute le fait que /proc/cpuinfo annonce 6 MB de cache pour
chaque cÅur, Ã§a m'amÃ¨ne Ã croire qu'il y a deux blocs de 6 MB cache,
chacun partagÃ© par deux cÅurs. Mes questions sont : comment sav oir
quels cÅurs sont Â«Â appariÃ©sÂ Â» et comment fi xer un thread sur un cÅur
donnÃ© (l'idÃ©e Ã©tant de ne lancer que deux threads, sur des cÅurs non
appariÃ©s) ?

Je ne pense pas qu'on puisse dÃ©terminer l'appariement, mais je serais
surpris qu'il se passe des choses subtiles.

Pour l'affinitÃ© (d'un thread/process sur un cpu), tu peux essayer
la commande taskset, voire sched_setaffinity/pthread_setaffinity_np, Ã
condition d'avoir les infos.

Ou est-ce qu'en lanÃ§ant seulement deux threads le systÃ¨me
va automatiquement les mettre sur des cÅurs non appariÃ©s (ce qu i est
le plus performant) ?

Si quelqu'un connaÃ®t la rÃ©ponse...

Le code est en C++ et utilise la bibliothÃ¨que TBB (threading building
blocks) d'Intel, mais je peux passer Ã une autre (pthread ?) si
besoin.

Il me semble que TBB dÃ©conseille de jouer directement avec les threads
sous-jacents. Selon la complexitÃ© de ton programme, tu risques de perd re
plus Ã te passer de TBB que de jouer avec les affinitÃ©s. Si ce n' est pas
le cas, c'est une bonne idÃ©e de jongler avec les paramÃ¨tres, mais c'est
un sport diffÃ©rent.

-- Alain.

Lucas Levrel

12/01/2011 à 17:44

Le 12 janvier 2011, Alain Ketterlin a écrit :

Pour l'affinité (d'un thread/process sur un cpu), tu peux essayer
la commande taskset, voire sched_setaffinity/pthread_setaffinity_np, à
condition d'avoir les infos.

Je viens de trouver ça dans le manuel d'Intel Math Kernel Library, c'est
un peu abscons mais ça ressemble drôlement à mon problème :
-:-:-
Consider the following performance issue:

* The system has two sockets with two cores each, for a total of four
cores (CPUs)
* The two -thread parallel application that calls the Intel(R) Math
Kernel Library (Intel(R) MKL) FFT happens to run faster than in four
threads, but the performance in two threads is very unstable

The following code example shows how to resolve this issue by setting an
affinity mask by operating system means using the Intel(R) compiler. The
code calls the system function sched_setaffinity to bind the threads to
the cores on different sockets.
(snip)
cpu_set_t new_mask;
cpu_set_t was_mask;
int tid = omp_get_thread_num();

CPU_ZERO(&new_mask);

// 2 packages x 2 cores/pkg x 1 threads/core (4 total cores)
CPU_SET(tid==0 ? 0 : 2, &new_mask);

if (sched_getaffinity(0, sizeof(was_mask), &was_mask) == -1) {
printf("Error: sched_getaffinity(%d, sizeof(was_mask), &was_mask)n", tid);
}
if (sched_setaffinity(0, sizeof(new_mask), &new_mask) == -1) {
printf("Error: sched_setaffinity(%d, sizeof(new_mask), &new_mask)n", tid);
}
-:-:-
http://software.intel.com/sites/products/documentation/hpc/composerxe/en-us/mklxe/mkl_userguide_lnx/MKL_UG_managing_performance/Managing_Multi-core_Performance.htm

Ils ont l'air de considérer comme évident que les CPU 0 et 2 sont sur des
sockets différents... Pourtant sur une machine avec deux quad-cores,
/proc/cpuinfo contient :
processor : 0
physical id : 0
core id : 0
apicid : 0

processor : 1
physical id : 1
core id : 0
apicid : 4

processor : 2
physical id : 0
core id : 1
apicid : 1

processor : 3
physical id : 1
core id : 1
apicid : 5

processor : 4
physical id : 0
core id : 2
apicid : 2

processor : 5
physical id : 1
core id : 2
apicid : 6

processor : 6
physical id : 0
core id : 3
apicid : 3

processor : 7
physical id : 1
core id : 3
apicid : 7

0, 2, 4 et 6 sont sur la même puce... (je suppose que ce n'est pas apicid
qui est utilisé par sched.h, car l'autre machine n'a pas ce champ dans son
cpuinfo)

--
LL

Le 12 janvier 2011, Alain Ketterlin a écrit :

Pour l'affinité (d'un thread/process sur un cpu), tu peux essayer
la commande taskset, voire sched_setaffinity/pthread_setaffinity_np, à
condition d'avoir les infos.

Je viens de trouver ça dans le manuel d'Intel Math Kernel Library, c'est
un peu abscons mais ça ressemble drôlement à mon problème :
-:-:-
Consider the following performance issue:

* The system has two sockets with two cores each, for a total of four
cores (CPUs)
* The two -thread parallel application that calls the Intel(R) Math
Kernel Library (Intel(R) MKL) FFT happens to run faster than in four
threads, but the performance in two threads is very unstable

The following code example shows how to resolve this issue by setting an
affinity mask by operating system means using the Intel(R) compiler. The
code calls the system function sched_setaffinity to bind the threads to
the cores on different sockets.
(snip)
cpu_set_t new_mask;
cpu_set_t was_mask;
int tid = omp_get_thread_num();

CPU_ZERO(&new_mask);

// 2 packages x 2 cores/pkg x 1 threads/core (4 total cores)
CPU_SET(tid==0 ? 0 : 2, &new_mask);

if (sched_getaffinity(0, sizeof(was_mask), &was_mask) == -1) {
printf("Error: sched_getaffinity(%d, sizeof(was_mask), &was_mask)n", tid);
}
if (sched_setaffinity(0, sizeof(new_mask), &new_mask) == -1) {
printf("Error: sched_setaffinity(%d, sizeof(new_mask), &new_mask)n", tid);
}
-:-:-
http://software.intel.com/sites/products/documentation/hpc/composerxe/en-us/mklxe/mkl_userguide_lnx/MKL_UG_managing_performance/Managing_Multi-core_Performance.htm

Ils ont l'air de considérer comme évident que les CPU 0 et 2 sont sur des
sockets différents... Pourtant sur une machine avec deux quad-cores,
/proc/cpuinfo contient :
processor : 0
physical id : 0
core id : 0
apicid : 0

processor : 1
physical id : 1
core id : 0
apicid : 4

processor : 2
physical id : 0
core id : 1
apicid : 1

processor : 3
physical id : 1
core id : 1
apicid : 5

processor : 4
physical id : 0
core id : 2
apicid : 2

processor : 5
physical id : 1
core id : 2
apicid : 6

processor : 6
physical id : 0
core id : 3
apicid : 3

processor : 7
physical id : 1
core id : 3
apicid : 7

0, 2, 4 et 6 sont sur la même puce... (je suppose que ce n'est pas apicid
qui est utilisé par sched.h, car l'autre machine n'a pas ce champ dans son
cpuinfo)

--
LL

Vous avez filtré cet utilisateur ! Consultez son message

Le 12 janvier 2011, Alain Ketterlin a écrit :

Pour l'affinité (d'un thread/process sur un cpu), tu peux essayer
la commande taskset, voire sched_setaffinity/pthread_setaffinity_np, à
condition d'avoir les infos.

Je viens de trouver ça dans le manuel d'Intel Math Kernel Library, c'est
un peu abscons mais ça ressemble drôlement à mon problème :
-:-:-
Consider the following performance issue:

* The system has two sockets with two cores each, for a total of four
cores (CPUs)
* The two -thread parallel application that calls the Intel(R) Math
Kernel Library (Intel(R) MKL) FFT happens to run faster than in four
threads, but the performance in two threads is very unstable

The following code example shows how to resolve this issue by setting an
affinity mask by operating system means using the Intel(R) compiler. The
code calls the system function sched_setaffinity to bind the threads to
the cores on different sockets.
(snip)
cpu_set_t new_mask;
cpu_set_t was_mask;
int tid = omp_get_thread_num();

CPU_ZERO(&new_mask);

// 2 packages x 2 cores/pkg x 1 threads/core (4 total cores)
CPU_SET(tid==0 ? 0 : 2, &new_mask);

if (sched_getaffinity(0, sizeof(was_mask), &was_mask) == -1) {
printf("Error: sched_getaffinity(%d, sizeof(was_mask), &was_mask)n", tid);
}
if (sched_setaffinity(0, sizeof(new_mask), &new_mask) == -1) {
printf("Error: sched_setaffinity(%d, sizeof(new_mask), &new_mask)n", tid);
}
-:-:-
http://software.intel.com/sites/products/documentation/hpc/composerxe/en-us/mklxe/mkl_userguide_lnx/MKL_UG_managing_performance/Managing_Multi-core_Performance.htm

Ils ont l'air de considérer comme évident que les CPU 0 et 2 sont sur des
sockets différents... Pourtant sur une machine avec deux quad-cores,
/proc/cpuinfo contient :
processor : 0
physical id : 0
core id : 0
apicid : 0

processor : 1
physical id : 1
core id : 0
apicid : 4

processor : 2
physical id : 0
core id : 1
apicid : 1

processor : 3
physical id : 1
core id : 1
apicid : 5

processor : 4
physical id : 0
core id : 2
apicid : 2

processor : 5
physical id : 1
core id : 2
apicid : 6

processor : 6
physical id : 0
core id : 3
apicid : 3

processor : 7
physical id : 1
core id : 3
apicid : 7

0, 2, 4 et 6 sont sur la même puce... (je suppose que ce n'est pas apicid
qui est utilisé par sched.h, car l'autre machine n'a pas ce champ dans son
cpuinfo)

--
LL

Alain Ketterlin

12/01/2011 à 18:31

Lucas Levrel writes:

Pour l'affinitÃ© (d'un thread/process sur un cpu), tu peux essayer
la commande taskset, voire sched_setaffinity/pthread_setaffinity_np, Ã
condition d'avoir les infos.

Je viens de trouver Ã§a dans le manuel d'Intel Math Kernel Library,
c'est un peu abscons mais Ã§a ressemble drÃ´lement Ã mon pro blÃ¨me :

[...]

int tid = omp_get_thread_num();

Fais gaffe, ce code est manifestement pour un programme OpenMP
(omp_get_thread_num renvoie un numÃ©ro entre 0 et N-1, oÃ¹ N est le nombre
de threads du pool courant). Si tu utilises TBB, je crois que la classe
thread a un Ã©quivalent.

Pour la numÃ©rotation, je ne sais pas.

-- Alain.

Lucas Levrel

13/01/2011 à 10:26

Le 12 janvier 2011, Alain Ketterlin a écrit :

Fais gaffe, ce code est manifestement pour un programme OpenMP
(omp_get_thread_num renvoie un numéro entre 0 et N-1, où N est le nombre
de threads du pool courant). Si tu utilises TBB, je crois que la classe
thread a un équivalent.

Oui, je ne vais pas copier-coller ce code :-) Mais la problématique me
semble similaire à la mienne, surtout sachant ce que tu m'as dit sur mon
quad-core qui est en fait un double dual-core.

Merci de t'être penché sur mon problème.
--
LL

Alain Ketterlin

13/01/2011 à 13:32

Lucas Levrel writes:

[...]

Si l'on ajoute le fait que /proc/cpuinfo annonce 6 MB de cache pour
chaque cÅur, Ã§a m'amÃ¨ne Ã croire qu'il y a deux blocs de 6 MB cache,
chacun partagÃ© par deux cÅurs. Mes questions sont : comment sav oir
quels cÅurs sont Â«Â appariÃ©sÂ Â» et comment fi xer un thread sur un cÅur
donnÃ© (l'idÃ©e Ã©tant de ne lancer que deux threads, sur des cÅurs non
appariÃ©s) ?

Ca y est, Ã§a m'est revenu. On peut obtenir la topologie avec les outils
de hwloc, Ã http://www.open-mpi.org/projects/hwloc/

-- Alain.

Lucas Levrel

13/01/2011 à 16:44

Le 13 janvier 2011, Alain Ketterlin a écrit :

Ca y est, ça m'est revenu. On peut obtenir la topologie avec les outils
de hwloc, à http://www.open-mpi.org/projects/hwloc/

Je vais regarder ça, merci.

--
LL

4 cœurs, 2 caches ?

8 réponses

Veuillez sélectionner un problème