Как записать данные в таблицу Hive?

Я использую Спарк 2.0.2.

Изучая концепцию записи набора данных в таблицу Hive, я понял, что мы делаем это двумя способами:

используя sparkSession.sql("ваш запрос sql")
dataframe.write.mode(SaveMode."тип режима").insertInto("tableName")

Может ли кто-нибудь сказать мне, какой предпочтительный способ загрузки таблицы Hive с помощью Spark?

apache-spark hive apache-spark-2.0

Metadata 09.08.2017 источник

comment

зависит от разработчиков. Я обычно использую 1-й. - Sandeep Singh 09.08.2017

Ответы (2)

arrow_upward
0
arrow_downward

В общем, я предпочитаю 2. Во-первых, потому что для нескольких строк вы не можете построить такой длинный sql, а во-вторых, потому что это снижает вероятность ошибок или других проблем, таких как атаки SQL-инъекций.

Точно так же, как и для JDBC, я максимально использую PreparedStatements.

Gonzalo Herreros 10.08.2017

arrow_upward
0
arrow_downward

Подумайте таким образом, нам нужно получать обновления на ежедневной основе в улье.

Этого можно достичь двумя способами

Обработать все данные улья
Обрабатывать только затронутые разделы.

Для первого варианта sql работает как гем, но имейте в виду, что данных должно быть меньше, чтобы обработать все данные.

Второй вариант работает хорошо. Если вы хотите обработать только созданный раздел. Используйте data.overwite.partitionby.path Вы должны написать логику таким образом, чтобы она обрабатывала только задействованные разделы. Эта логика будет применяться к таблицам, в которых данные представлены в миллионах T миллиардов записей.

loneStar 13.08.2017

Как записать данные в таблицу Hive?

Ответы (2)

Похожие вопросы