Есть ли хорошая реализация алгоритма редукции, вызываемого из ядра с динамическим параллелизмом?

Я вижу алгоритмы сокращения в CUDA (такие как суммирование и максимизация по диапазону элементов), обсуждавшиеся в предыдущих постах, но с динамическим параллелизмом их потенциально можно реализовать по-другому. Есть ли более эффективная реализация, которую можно вызывать из ядра?


person shaoyl85    schedule 12.01.2014    source источник


Ответы (1)


Есть ли более эффективная реализация, которую можно вызывать из ядра?

CUB предоставляет примитив сокращения CUDA, совместимый с динамическим параллелизмом, а именно, который можно вызывать в ядрах. .

person Vitality    schedule 12.01.2014
comment
Замечательный! Это именно то, что я ищу! - person shaoyl85; 14.01.2014
comment
знаете ли вы также какую-нибудь библиотеку, которая может параллельно вычислять несколько k-выборов, например, 1000000 k-выборов параллельно, каждый из которых должен найти k-самый большой элемент среди примерно 10000 элементов - person shaoyl85; 14.01.2014