Как переместить таблицы HBase в HDFS в формате Parquet?

Мне нужно создать инструмент, который будет обрабатывать наше хранилище данных из HBase (HFiles) в HDFS в формате паркета.

Пожалуйста, предложите один из лучших способов перемещения данных из таблиц HBase в таблицы Parquet.

Нам нужно перенести 400 миллионов записей из HBase в Parquet. Как этого добиться и как быстрее всего перемещать данные?

Заранее спасибо.

С уважением,

Пардип Шарма.


person Pardeep Sharma    schedule 04.05.2016    source источник
comment
Паркет, ты имеешь в виду паркет авро? Hbase - это схема меньше, чем в файле parquet avro, где есть схема. что вы хотите сделать с этими данными в паркете? Если вы используете двоичный файл/протобуф, эти сложные типы данных могут создать некоторые проблемы при создании паркета. пожалуйста, посмотрите мой ответ.   -  person Ram Ghadiyaram    schedule 04.05.2016
comment
Да это паркет авро. На следующем шаге мы будем использовать эти файлы паркета для тестирования. Спасибо за ваш немедленный ответ.   -  person Pardeep Sharma    schedule 04.05.2016


Ответы (2)


Пожалуйста, ознакомьтесь с этим проектом tmalaska/HBase-ToHDFS, который читает таблицу HBase и записывает ее как Text, Seq, Avro или Parquet.

Пример использования для паркета:

Экспорт данных в Parquet

hadoop jar HBaseToHDFS.jar ExportHBaseTableToParquet exportTest c export.parquet false avro.schema
person Ram Ghadiyaram    schedule 04.05.2016
comment
Привет @RamPrasad G, Можем ли мы сделать то же самое в искре? - person Pardeep Sharma; 05.05.2016
comment
Да, конечно. На Hbase есть проект spark (blog.cloudera.com/blog/2015/08/). Я думаю, вы используете те же форматы ввода. Я не уверен, пожалуйста, проверьте - person Ram Ghadiyaram; 05.05.2016
comment
Вижу, что проект не обновлялся 3 года. Кто-нибудь может подтвердить, работает ли он до сих пор? - person Danny; 21.02.2017
comment
Spark на Hbase не поддерживается для версий Spark 2.x. - person rh979; 15.04.2019

Недавно я открыл патч для HBase, который решает проблему, которую вы описываете. Посмотрите здесь: https://github.com/ibm-research-ireland/hbaquet

person Yiannis Gkoufas    schedule 06.04.2018