StreamInputFormat для задания mapreduce

У меня есть приложение, которое подключается к удаленной системе и передает данные с нее по протоколу sftp. Я хочу использовать задание mapreduce, чтобы сделать то же самое. Мне нужен формат ввода, который считывается из входного потока. Я просматривал документы для HStreamInputFormat и StreamInputFormat, но мой hadoop-2.0, похоже, не поддерживает эти классы. Как мне поступить? Любые ссылки на учебные пособия или примеры чтения из входных потоков с использованием входных форматов?


person RadAl    schedule 12.12.2012    source источник


Ответы (1)


Если эти SteamInputFormat не поддерживают ваши потребности, вам лучше написать свой собственный InputFormat с учетом ваших индивидуальных потребностей. Прочтите этот учебник, чтобы узнать, как написать свой собственный InputFormat и RecordReader. .

person shazin    schedule 12.12.2012
comment
Спасибо :) Не могу написать здесь InputFormat, потому что я не знаю, как обрабатывать входные потоки как путь к картографу, а у hadoop нет никаких базовых классов. - person RadAl; 13.12.2012