Добавление поддержки Zip-файлов в Hadoop

Hadoop по умолчанию поддерживает чтение сжатых файлов .gz, я хочу иметь аналогичную поддержку для файлов .zip. Я должен иметь возможность читать содержимое zip-файлов с помощью команды hadoop -text.

Я ищу подход, при котором мне не нужно реализовывать формат ввода и средство чтения для zip-файлов. Я хочу, чтобы мои задания были полностью независимы от формата входных файлов, они должны работать независимо от того, заархивированы или разархивированы данные. Аналогично тому, как это делается для файлов .gz.


person akshay202    schedule 23.03.2015    source источник
comment
возможный дубликат потоковой передачи Hadoop с входными файлами zip   -  person Lokesh A. R.    schedule 27.03.2015
comment
нет, это не дубликат того, что я не ищу решение для ввода и записи.   -  person akshay202    schedule 29.03.2015


Ответы (1)


Мне жаль говорить, что я вижу только два способа сделать это «изнутри» hadoop: либо с помощью пользовательского формата ввода и средства чтения записей на основе ZipInputStream (который вы четко указали, что вас не интересует), либо путем обнаружения .zip входных файлов и распаковки. их перед запуском задания.

Лично я бы сделал это извне Hadoop, преобразовав в gzip (или LZO-индексированный, если мне нужны разделяемые файлы) с помощью скрипта перед запуском задания, но вы наверняка уже думали об этом...

Мне также интересно посмотреть, может ли кто-нибудь придумать неожиданный ответ.

person Matt Fortier    schedule 23.03.2015