Лучший способ экспортировать большой фрейм данных в один файл, который может использоваться Power BI

Я обрабатываю большое количество входных файлов в Azure Databricks. В моем последнем кадре данных примерно 98 миллионов строк.

Мне нужно экспортировать это из Databricks, чтобы я мог импортировать его в Power BI для создания отчетов.

Power BI в настоящее время не имеет соединителя, который может интерпретировать разделенный характер, если я просто записываю фрейм данных, например. CSV. Использование объединения или преобразования в фрейм данных pandas и экспорт в CSV происходит очень медленно и подвержено ограничению ресурсов в кластере.

Я пробовал оба вышеупомянутых подхода с небольшим успехом.

Какие еще есть варианты для эффективного экспорта моего фрейма данных таким образом, чтобы Power BI мог его понять? Я не возражаю, если это либо со стороны Databricks, либо со стороны Power Query.


person Martin Cairney    schedule 29.04.2019    source источник
comment
Здравствуйте, можете ли вы экспортировать свой фрейм данных из блоков данных на сервер sql или базу данных sql azure и просто вытащить данные оттуда?   -  person StelioK    schedule 30.04.2019
comment
Это кажется длинным извилистым способом делать что-то. Я надеялся, что будет какой-то логический способ сделать это. Раздражает то, что примеры импорта больших данных из озера данных всегда показывают их в хорошо упорядоченных структурах папок с одним файлом на уровне листа — либо нереалистичные примеры, либо я упускаю какой-то трюк.   -  person Martin Cairney    schedule 30.04.2019
comment
Может быть, немного маркетинговой «Магии», лол, извините, я никогда не работал с блоками данных. Просто подумал, что я добавлю свой .02   -  person StelioK    schedule 30.04.2019


Ответы (1)


PowerBI имеет существующий соединитель для блоков данных. Мы берем наши данные CSV и преобразовываем их в таблицу с разностным форматированием блоков данных, которая секционирована. У нас есть миллиарды записей, и PowerBI может их нормально вытащить.

Убедитесь, что вы выполнили шаги, описанные здесь, чтобы подключить PowerBI к кластеру блоков данных: https://docs.databricks.com/user-guide/bi/power-bi.html#connect-power-bi-desktop-to-a-databricks-cluster

person Kevin Bain    schedule 02.05.2019