Дельта-таблицы Databricks - где они обычно хранятся?

Я начинаю свое путешествие в дельта-таблицы, и одна вещь, которая все еще меня смущает, - это лучшее место для сохранения дельта-таблиц, если вам понадобится запросить их позже.

Например, я переношу несколько таблиц из локальных блоков данных в лазурные в отдельные дельта-таблицы. У меня вопрос: следует ли мне сохранять отдельные дельта-таблицы, которые могут быть значительными по размеру, во внутреннем хранилище DBFS databricks, или мне следует смонтировать место хранения больших двоичных объектов и сохранить там таблицы дельта-озера? Что люди обычно делают в таких ситуациях?


person DiegoM    schedule 22.02.2021    source источник


Ответы (1)


Я обычно рекомендую людям хранить данные в отдельной учетной записи хранения (подключенной или используемой напрямую) и не использовать внутреннее хранилище рабочей области для этих задач. Основная причина - проще поделиться этими данными с другими рабочими пространствами или другими системами, если это необходимо. Внутреннее хранилище следует в первую очередь использовать для временных файлов, библиотек, сценариев инициализации и т. Д.

Существует ряд полезных руководств, которые могут помочь:

person Alex Ott    schedule 22.02.2021