У меня есть большой (~ 180 тыс. строк) кадр данных, для которого
df.compute()
зависает при запуске dask с распределенным планировщиком в локальном режиме на AWS m5.12xlarge (98 ядер). Все рабочие остаются почти без дела Однако
df.head(df.shape[0].compute(), -1)
завершается быстро, с хорошим использованием доступного ядра.
Логически вышеперечисленное должно быть эквивалентно. В чем причина разницы? Есть ли какой-то параметр, который я должен передать compute
в первой версии, чтобы ускорить его?