Кэш L2 в NVIDIA Fermi

Глядя на название счетчиков производительности в архитектуре NVIDIA Fermi (файл Compute_profiler.txt в папке doc cuda), я заметил, что для промахов кэша L2 есть два счетчика производительности, l2_subp0_read_sector_misses и l2_subp1_read_sector_misses. Сказали, что это для двух ломтиков L2.

Почему у них два среза L2? Есть ли какая-либо связь с потоковой многопроцессорной архитектурой? Как это разделение повлияет на производительность?

Спасибо

Zk1001 06.08.2011 источник

Ответы (2)

arrow_upward
1
arrow_downward

Я не думаю, что есть какая-то прямая связь с потоковым мультипроцессором.

Я просто думаю, что этот срез эквивалентен банковской памяти.

Просто суммируйте значения двух, чтобы получить «общее» количество промахов чтения L2.

fabrizioM 09.08.2011

arrow_upward
1
arrow_downward

Руководство по программированию CUDA C описывает архитектуру мультипроцессора. В документе указано, что каждый мультипроцессор Fermi имеет два планировщика деформации. Я предполагаю, что кэш L2 разделен для обеспечения одновременного кэширования.

Я не рассматривал промахи чтения L2 для архитектуры Kepler, но мультипроцессоры Kepler имеют четыре процессора деформации. Таким образом, это предположение может быть подтверждено, если для компиляции Kepler сообщается о четырех счетчиках производительности.

Thomas Ryan Stovall 19.05.2012

comment

Мне нравится идея. Буду искать, если это подтвердится. - Zk1001; 06.06.2012

Кэш L2 в NVIDIA Fermi

Ответы (2)

Похожие вопросы