Я проверил работу Eigen SGEMM с использованием одного потока и с использованием 8 потоков, и я получил, что производительность достигла пика при разрешении 512x512, но затем упала при превышении этого размера. Мне было интересно, есть ли для этого какая-то конкретная причина, возможно, что-то связанное со сложностью большей матрицы? Я посмотрел бенчмарк на сайте Eigen для матрично-матричных операций, но ничего похожего не увидел.
При разрешении 512x512 параллельно я стал в 4 раза быстрее. Но в разрешении 4096x4096 я стал едва ли в 2 раза быстрее. Я использую openMP для параллелизма, и чтобы сократить его до одного потока, я установил num_of_threads равным двум.