У меня есть ~5000 записей во входном файле Hadoop, но я заранее знаю, что обработка некоторых строк займет гораздо больше времени, чем других (на этапе карты). (В основном потому, что мне нужно скачать файл с Amazon S3, а размер файла зависит от задачи)
Я хочу убедиться, что самые большие задачи карты обрабатываются в первую очередь, чтобы убедиться, что все мои узлы Hadoop закончат работу примерно в одно и то же время.
Есть ли способ сделать это с помощью Hadoop? Или нужно все переделывать? (Я новичок в Hadoop)
Спасибо!