Я вижу алгоритмы сокращения в CUDA (такие как суммирование и максимизация по диапазону элементов), обсуждавшиеся в предыдущих постах, но с динамическим параллелизмом их потенциально можно реализовать по-другому. Есть ли более эффективная реализация, которую можно вызывать из ядра?
Есть ли хорошая реализация алгоритма редукции, вызываемого из ядра с динамическим параллелизмом?
Ответы (1)
Есть ли более эффективная реализация, которую можно вызывать из ядра?
CUB предоставляет примитив сокращения CUDA, совместимый с динамическим параллелизмом, а именно, который можно вызывать в ядрах. .
person
Vitality
schedule
12.01.2014
Замечательный! Это именно то, что я ищу!
- person shaoyl85; 14.01.2014
знаете ли вы также какую-нибудь библиотеку, которая может параллельно вычислять несколько k-выборов, например, 1000000 k-выборов параллельно, каждый из которых должен найти k-самый большой элемент среди примерно 10000 элементов
- person shaoyl85; 14.01.2014