Я пытаюсь распараллелить некоторую функцию через CUDA, которая вызывается много раз. Каждый раз он имеет дело с одной и той же матрицей. Я хочу сохранить эту матрицу в памяти графического процессора, и при вызове функции я хочу загрузить вектор в графический процессор, умножить его на матрицу и вернуть результат. Я предпочитаю шаблонный стиль C++, поэтому у тяги более высокий приоритет.
Пожалуйста, порекомендуйте мне некоторые функции для этого и, если возможно, несколько небольших иллюстрирующих примеров. Я не привожу код не потому, что это секрет, а из-за его сложности и огромного размера.