Потоковое задание Hadoop с двоичным вводом?

Я хочу преобразовать двоичный файл в одном формате в SequenceFile.

У меня есть скрипт Python, который принимает этот формат на стандартный ввод и может выводить все, что я хочу.

Формат ввода не основан на строках. Отдельные записи сами по себе являются двоичными, поэтому выходной формат не может быть разделен \t или разбит на строки с \n.

Могу ли я использовать интерфейс Hadoop Streaming для использования двоичного формата? Как создать двоичный формат вывода?

Я предполагаю, что ответ «Нет», если я не слышу обратного.

python hadoop hadoop-streaming

dfrankow 21.02.2013 источник

Ответы (1)

arrow_upward
0
arrow_downward

Вы можете рассмотреть возможность использования NullWritable в качестве вывода и создания SequenceFile непосредственно внутри вашего скрипта Python. Вы можете найти проект hadoop-python в github, чтобы увидеть код-кандидат: хотя он, по общему признанию, немного большой/тяжелый, он обрабатывает генерацию файла последовательности.

WestCoastProjects 03.03.2013

Потоковое задание Hadoop с двоичным вводом?

Ответы (1)

Похожие вопросы