У меня есть большой кусок сгенерированных данных (A[i,j,k]) на устройстве, но мне нужен только один «кусочек» A[i,:,:], и в обычном CUDA это может быть легко достигается с помощью некоторой арифметики указателя.
Можно ли сделать то же самое в pycuda? то есть
cuda.memcpy_dtoh(h_iA,d_A+(i*stride))
Очевидно, это совершенно неправильно, так как нет информации о размере (если только она не вытекает из формы назначения), но, надеюсь, вы поняли идею?