Можно ли использовать файлы Parquet и текстовые файлы (csv) в качестве входных данных для одного и того же задания M/R?

Я пытался исследовать это, но не нашел полезной информации. У меня есть задание M/R, уже читающее с паркета (не секционированное, с использованием схемы бережливости). Мне нужно добавить в процесс еще один набор входных файлов, которые не в формате паркета, это обычные файлы csv. Кто-нибудь знает, возможно ли это или как это можно сделать?


person Eric    schedule 25.01.2016    source источник


Ответы (1)


Неважно, я думаю, что нашел то, что мне нужно, в другом посте, не связанном с паркетом. Использование нескольких классов InputFormat при настройке задания MapReduce

Вот информация, которую я взял из ответа, на который я ссылался, и адаптировал его к своему собственному решению:

MultipleInputs.addInputPath(job, new Path("/path/to/parquet"), ParquetInputFormat.class, ParquetMapper.class);
MultipleInputs.addInputPath(job, new Path("/path/to/txt"), TextInputFormat.class, TextMapper.class);
person Eric    schedule 25.01.2016
comment
Это классический ответ только по ссылке, который через несколько недель может стать бесполезным. Хотите извлечь суть и улучшить свой ответ? - person JensG; 26.01.2016