Кэш L2 в NVIDIA Fermi

Глядя на название счетчиков производительности в архитектуре NVIDIA Fermi (файл Compute_profiler.txt в папке doc cuda), я заметил, что для промахов кэша L2 есть два счетчика производительности, l2_subp0_read_sector_misses и l2_subp1_read_sector_misses. Сказали, что это для двух ломтиков L2.

Почему у них два среза L2? Есть ли какая-либо связь с потоковой многопроцессорной архитектурой? Как это разделение повлияет на производительность?

Спасибо


person Zk1001    schedule 06.08.2011    source источник


Ответы (2)


Я не думаю, что есть какая-то прямая связь с потоковым мультипроцессором.

Я просто думаю, что этот срез эквивалентен банковской памяти.

Просто суммируйте значения двух, чтобы получить «общее» количество промахов чтения L2.

person fabrizioM    schedule 09.08.2011

Руководство по программированию CUDA C описывает архитектуру мультипроцессора. В документе указано, что каждый мультипроцессор Fermi имеет два планировщика деформации. Я предполагаю, что кэш L2 разделен для обеспечения одновременного кэширования.

Я не рассматривал промахи чтения L2 для архитектуры Kepler, но мультипроцессоры Kepler имеют четыре процессора деформации. Таким образом, это предположение может быть подтверждено, если для компиляции Kepler сообщается о четырех счетчиках производительности.

person Thomas Ryan Stovall    schedule 19.05.2012
comment
Мне нравится идея. Буду искать, если это подтвердится. - person Zk1001; 06.06.2012