Мне нужно загрузить таблицу Hive с помощью spark-sql, а затем запустить на ней алгоритм машинного обучения. Я делаю это письмо:
val dataSet = sqlContext.sql(" select * from table")
Это работает хорошо, но если бы я хотел увеличить количество частей DataSet Dataframe, как я мог бы это сделать? С обычным RDD я могу писать:
val dataSet = sc.textFile(" .... ", N )
С N количеством разделов, которые я хочу иметь.
Спасибо