Чтение несжатых файлов бережливости в искре

Я пытаюсь заставить искру читать несжатые файлы бережливости с s3. Пока это не работает.

  • данные загружаются в s3 как несжатые файлы бережливости. Источник — AWS Kinesis Firehose.
  • У меня есть инструмент, который без проблем десериализует файлы, поэтому я знаю, что бережливая сериализация/десериализация работает.
  • в искре я использую newAPIHadoopFile
  • используя LzoThriftBlockInputFormat слоновой птицы, я могу успешно читать lzo-сжатые файлы бережливости
  • Я не могу понять, какой InputFormat следует использовать для чтения несжатых файлов сбережений.

Возможно ли это с любым из InputFormat? Должен ли я реализовать свой собственный?


person Martin Klosi    schedule 04.06.2016    source источник
comment
Немного старый вопрос, но я в той же ситуации на шаг позади. тебе удалось ее решить? и не могли бы вы обновить пример того, как вы загружаете данные в spark, поэтому я попытаюсь взять это предисловие оттуда? Спасибо !   -  person NetanelRabinowitz    schedule 15.03.2017
comment
да. разместил мой ответ ниже.   -  person Martin Klosi    schedule 15.03.2017
comment
Спасибо! Я взгляну !   -  person NetanelRabinowitz    schedule 15.03.2017


Ответы (1)


В итоге я написал свой собственный десериализатор бережливости.

Требуется для реализации пользовательского InputFormat и пользовательского RecordReader. Все еще удивлен, что таких классов еще нет в некоторых библиотеках. Два класса были протестированы и работают, но поскольку я прекратил работу над проектом вскоре после того, как решил эту проблему, код не очищается.

https://github.com/mklosi/thrift-deserializer

person Martin Klosi    schedule 15.03.2017