Я пытаюсь заставить искру читать несжатые файлы бережливости с s3. Пока это не работает.
- данные загружаются в s3 как несжатые файлы бережливости. Источник — AWS Kinesis Firehose.
- У меня есть инструмент, который без проблем десериализует файлы, поэтому я знаю, что бережливая сериализация/десериализация работает.
- в искре я использую newAPIHadoopFile
- используя LzoThriftBlockInputFormat слоновой птицы, я могу успешно читать lzo-сжатые файлы бережливости
- Я не могу понять, какой InputFormat следует использовать для чтения несжатых файлов сбережений.
Возможно ли это с любым из InputFormat? Должен ли я реализовать свой собственный?