Разделы Spark-SQl DataFrame

Мне нужно загрузить таблицу Hive с помощью spark-sql, а затем запустить на ней алгоритм машинного обучения. Я делаю это письмо:

val dataSet = sqlContext.sql(" select * from table")

Это работает хорошо, но если бы я хотел увеличить количество частей DataSet Dataframe, как я мог бы это сделать? С обычным RDD я могу писать:

val dataSet = sc.textFile(" .... ", N )

С N количеством разделов, которые я хочу иметь.

Спасибо

apache-spark apache-spark-sql hadoop-partitioning

Edge07 02.12.2015 источник

Ответы (1)

arrow_upward
0
arrow_downward

Вы можете coalesce или repartition получить DataFrame, т.е.:

val dataSet = sqlContext.sql(" select * from table").coalesce(N)

mgaido 02.12.2015

comment

Это довольно дорогая операция, не так ли? Накладные расходы на объединение в любом случае должны быть уменьшены за счет ускорения шага обучения. Спасибо - Edge07; 02.12.2015

comment

Да, это. Он включает в себя передачу всех данных между узлами кластера. Другим вариантом может быть попытка установить свойство конфигурации spark.default.parallelism, но вы должны попробовать, я не знаю, сработает ли это... - mgaido; 02.12.2015

comment

Вы также можете проверить эту ссылку deepsense.io/optimize-spark -с-распределением-по-и-кластеризацией - Noman Khan; 06.06.2017

Разделы Spark-SQl DataFrame

Ответы (1)

Похожие вопросы