Мне нужно 20% выборочных данных из входного набора данных.
Я думал о двух подходах:
Первоначально выдает 20 % данных от каждого преобразователя (один преобразователь выдает 20 % данных). Затем редуктор находит 20 % данных преобразователя после перемешивания и сортировки (та же процедура применяется как для Map, так и для Reduce).
Просто выпустите каждую строку из картографа, а затем найдите 20% выборочных данных из общих данных в Reducer (обработка выполняется только в Reducer).
Какой подход лучше?