Я объединяю несколько DataFrames в Spark и продолжаю получать следующую ошибку:
PartitioningCollection requires all of its partitionings have the same numPartitions.
Кажется, это происходит после того, как я объединяю два DataFrame вместе, каждый из которых кажется достаточно разумным по отдельности, но после присоединения к ним, если я попытаюсь получить строку из объединенного DataFrame, я получаю эту ошибку. На самом деле я просто пытаюсь понять, почему может возникнуть эта ошибка или каков ее смысл, поскольку я не могу найти по ней никакой документации.
Следующий вызов приводит к этому исключению:
val resultDataframe = dataFrame1
.join(dataFrame2,
$"first_column" === $"second_column").take(2)
но я конечно могу позвонить
dataFrame1.take(2)
а также
dataFrame2.take(2)
Я также попытался переразбить DataFrames
, используя Dataset.repartition(numPartitions)
или Dataset.coalesce(numParitions)
на dataFrame1
и dataFrame2
перед присоединением и на resultDataFrame
после соединения, но, похоже, ничего не повлияло на ошибку. Мне не удалось найти упоминания о других людях, получающих ошибку после беглого поиска в Google ...