Мне нужно передать несколько файлов в потоковое задание Hadoop. Согласно документу, опция -file также принимает каталог в качестве входных данных. однако, похоже, это не работает. Редуктор выдает ошибку, что файл не найден. Другие варианты - передавать каждый файл отдельно, используя параметр -file, который не очень оптимален, учитывая, что у меня есть сотни файлов. Еще один вариант - заархивировать файлы и передать их как tarball, а затем разархивировать их в редюсере.
Любые другие лучшие варианты?
в идеале я просто хотел бы передать каталог в качестве значения параметра -file, учитывая, что документация Hadoop предполагает, что -file также принимает каталог