Я пытался исследовать это, но не нашел полезной информации. У меня есть задание M/R, уже читающее с паркета (не секционированное, с использованием схемы бережливости). Мне нужно добавить в процесс еще один набор входных файлов, которые не в формате паркета, это обычные файлы csv. Кто-нибудь знает, возможно ли это или как это можно сделать?
Можно ли использовать файлы Parquet и текстовые файлы (csv) в качестве входных данных для одного и того же задания M/R?
Ответы (1)
Неважно, я думаю, что нашел то, что мне нужно, в другом посте, не связанном с паркетом. Использование нескольких классов InputFormat при настройке задания MapReduce
Вот информация, которую я взял из ответа, на который я ссылался, и адаптировал его к своему собственному решению:
MultipleInputs.addInputPath(job, new Path("/path/to/parquet"), ParquetInputFormat.class, ParquetMapper.class);
MultipleInputs.addInputPath(job, new Path("/path/to/txt"), TextInputFormat.class, TextMapper.class);
person
Eric
schedule
25.01.2016
Это классический ответ только по ссылке, который через несколько недель может стать бесполезным. Хотите извлечь суть и улучшить свой ответ?
- person JensG; 26.01.2016