Глядя на название счетчиков производительности в архитектуре NVIDIA Fermi (файл Compute_profiler.txt в папке doc cuda), я заметил, что для промахов кэша L2 есть два счетчика производительности, l2_subp0_read_sector_misses и l2_subp1_read_sector_misses. Сказали, что это для двух ломтиков L2.
Почему у них два среза L2? Есть ли какая-либо связь с потоковой многопроцессорной архитектурой? Как это разделение повлияет на производительность?
Спасибо