Я хочу преобразовать двоичный файл в одном формате в SequenceFile.
У меня есть скрипт Python, который принимает этот формат на стандартный ввод и может выводить все, что я хочу.
Формат ввода не основан на строках. Отдельные записи сами по себе являются двоичными, поэтому выходной формат не может быть разделен \t или разбит на строки с \n.
Могу ли я использовать интерфейс Hadoop Streaming для использования двоичного формата? Как создать двоичный формат вывода?
Я предполагаю, что ответ «Нет», если я не слышу обратного.