Потоковое задание Hadoop с двоичным вводом?

Я хочу преобразовать двоичный файл в одном формате в SequenceFile.

У меня есть скрипт Python, который принимает этот формат на стандартный ввод и может выводить все, что я хочу.

Формат ввода не основан на строках. Отдельные записи сами по себе являются двоичными, поэтому выходной формат не может быть разделен \t или разбит на строки с \n.

Могу ли я использовать интерфейс Hadoop Streaming для использования двоичного формата? Как создать двоичный формат вывода?

Я предполагаю, что ответ «Нет», если я не слышу обратного.


person dfrankow    schedule 21.02.2013    source источник


Ответы (1)


Вы можете рассмотреть возможность использования NullWritable в качестве вывода и создания SequenceFile непосредственно внутри вашего скрипта Python. Вы можете найти проект hadoop-python в github, чтобы увидеть код-кандидат: хотя он, по общему признанию, немного большой/тяжелый, он обрабатывает генерацию файла последовательности.

person WestCoastProjects    schedule 03.03.2013