Статьи по тематике azure-databricks

Публикации по теме 'azure-databricks'

Как подключить Azure Data Lake Gen 2 или хранилище BLOB-объектов Azure к Azure Databricks

Хранилище BLOB-объектов Azure — это служба хранения, предоставляемая Microsoft Azure, которая используется для хранения больших объемов неструктурированных объектных данных, таких как текстовые или двоичные данные. Хранилище BLOB-объектов можно использовать для предоставления данных всему миру или для хранения данных приложений в частном порядке. Azure Data Lake Storage Gen2 (также известное как ADLS Gen2) — это решение озера данных нового поколения для аналитики больших данных...

Вопросы по теме 'azure-databricks'

spark.conf.set с SparkR

У меня есть кластер Databricks, работающий в Azure, и мне нужны данные для чтения и записи из Azure Data Lake Storage с использованием SparkR / sparklyr . Поэтому я настроил два ресурса . Теперь мне нужно предоставить среде Spark необходимые...

791 просмотров

07.06.2023

Удалите файлы из каталога после загрузки в Databricks с помощью dbutils

Очень умный человек из StackOverflow помог мне скопировать файлы в каталог из Databricks здесь: копии файлов Я использую тот же принцип для удаления файлов после их копирования, как показано в ссылке: for i in range (0, len(files)): file =...

15818 просмотров

python azure-databricks databricks

20.08.2022

Azure Databricks без / FileStore и / Users

Я только что создал рабочую область Databricks в Azure и настроил токен доступа для интерфейса командной строки Databricks. Все работает. Подключения хранилища BLOB-объектов, доступ к базе данных JDBC и интерфейс командной строки. Но: файловая...

318 просмотров

azure azure-databricks databricks

06.12.2021

Эффективный способ чтения паркетных файлов между диапазоном дат в Azure Databricks

Я хотел бы знать, является ли приведенный ниже псевдокод эффективным методом чтения нескольких паркетных файлов между диапазоном дат, хранящимся в Azure Data Lake, из PySpark (Azure Databricks). Примечание: файлы паркета не разбиты на разделы по...

6045 просмотров

azure-data-lake azure-databricks databricks

15.05.2022

Обязательна ли управляемая группа ресурсов для создания Azure Databricks

при создании Azure Databricks управляемая группа ресурсов создается автоматически с использованием ресурсов (vnet, nsg и учетной записи хранения). У меня вопрос: можно ли создать Azure Databricks без управляемой группы ресурсов. Если нет, мы можем...

2588 просмотров

azure azure-databricks

08.01.2024

Лучший способ экспортировать большой фрейм данных в один файл, который может использоваться Power BI

Я обрабатываю большое количество входных файлов в Azure Databricks. В моем последнем кадре данных примерно 98 миллионов строк. Мне нужно экспортировать это из Databricks, чтобы я мог импортировать его в Power BI для создания отчетов. Power BI в...

255 просмотров

pyspark powerbi azure-databricks

06.06.2023

Как передать объект из поиска фабрики данных Azure в записную книжку, чтобы я мог использовать объект / json в скрипте python

Я впервые использую фабрику данных Azure. У меня есть поиск с исходным набором данных, который представляет собой таблицу из хранилища таблиц Azure У меня есть записная книжка, в которой есть базовый параметр под названием «ввод» со значением:...

2329 просмотров

azure azure-data-factory azure-databricks azure-table-storage

04.05.2022

Как записать каждый раздел фрейма данных в разные таблицы

Я использую Databricks для подключения к Eventhub, где каждое сообщение, поступающее из EventHub, может сильно отличаться от другого. В сообщении у меня есть тело и идентификатор. Я ищу производительность, поэтому я избегаю сбора данных или...

108 просмотров

python-3.x pyspark azure-databricks

26.03.2022

Подключение концентраторов событий к Azure Databricks

Я хочу добавить библиотеки в Azure Databricks для подключения к концентраторам событий. Я буду писать блокноты на питоне. Итак, какую библиотеку следует добавить для подключения к концентраторам событий? В соответствии с моими поисками до сих пор...

134 просмотров

azure python azure-databricks

04.09.2023

Проблемы при записи данных в Delta Lake в блоках данных Azure (обнаружен несовместимый формат)

Мне нужно прочитать набор данных в DataFrame, а затем записать данные в Delta Lake. Но у меня есть следующее исключение: AnalysisException: 'Incompatible format detected.\n\nYou are trying to write to...

6120 просмотров

delta-lake azure-databricks databricks

29.04.2022

Pyspark ImportError: нет модуля с именем spark_df_profiling

Я пытаюсь использовать spark_df_profiling в среде блоков данных pyspark. Я получаю следующую ошибку. > pip install spark_df_profiling from datetime import datetime import spark_df_profiling df = sql("select * from ab.data").cache()...

687 просмотров

python pyspark azure-databricks

21.04.2024

Записать в CSV-файл из таблицы deltalake в Databricks

Как мне записать содержимое таблицы deltalake в файл csv в Azure databricks? Есть ли способ, при котором мне не нужно сначала выгружать содержимое в фрейм данных? https://docs.databricks.com/delta/delta-batch.html

712 просмотров

delta-lake azure-databricks

12.06.2024

Какая из моих записных книжек Databricks использует узлы кластера?

Я запускаю несколько записных книжек в кластере Azure Databricks Spark одновременно. Как я могу увидеть интенсивность использования узлов кластера каждой записной книжкой \ приложением за определенный период времени? Обе вкладки "Spark Cluster...

95 просмотров

apache-spark azure-databricks databricks

06.04.2024

Azure Databrics - запуск Spark Jar из хранилища DataLake 2-го поколения

Я пытаюсь запустить искру из базы данных Azure. В настоящее время я могу создать задание с загрузкой jar-файла в рабочем пространстве Databrics и запустить его. Мои запросы: Есть ли способ получить доступ к банке, находящейся в хранилище...

445 просмотров

azure apache-spark azure-databricks scala

23.04.2022

Ошибка подключения к хранилищу DataLake (ADLS Gen2) из блоков данных

Я пытаюсь подключиться к хранилищу dataLake Gen2 из databricks python, к сожалению, у меня возникла ошибка. Код: dbutils.fs.ls("abfss://<fsystem name>@<storage name>.dfs.core.windows.net/<folder name>") Сообщение об...

4598 просмотров

azure-data-lake azure-databricks

17.06.2022

Не удалось создать кластер Azure Databricks из-за недоступных экземпляров

Я пытаюсь создать кластер в Azure Databricks и получаю сообщение об ошибке Resources were not reachable via SSH. If the problem persists, this usually indicates a network environment misconfiguration. Please check your cloud provider...

1040 просмотров

azure azure-databricks azure-virtual-network

11.09.2022

Как считывать данные в записную книжку Databricks из большого двоичного объекта Azure с помощью Azure Active Directory (AAD)

Я пытаюсь прочитать данные из некоторых контейнеров в свой блокнот и записать их в формат данных spark или pandas. Существует некоторая документация по использованию пароля учетной записи, но как это сделать с помощью Azure Active Directory?

622 просмотров

azure azure-active-directory azure-databricks

11.04.2023

Я получаю непрерывные файлы больших двоичных объектов в хранилище больших двоичных объектов. Мне нужно загрузить в Databricks и поместить в базу данных SQL Azure. Фабрика данных для организации этого конвейера

Я постоянно получаю данные в хранилище BLOB-объектов. У меня изначально есть 5 файлов больших двоичных объектов в хранилище больших двоичных объектов, которые я могу загрузить из большого двоичного объекта в базу данных SQL Azure с помощью Databricks...

223 просмотров

azure apache-spark azure-databricks databricks azure-blob-storage

24.04.2022

Запуск записной книжки Azure databricks (python) через Terraform

Пожалуйста, помогите мне со скриптом terraform для запуска записной книжки Azure databricks (python) в другой среде.

346 просмотров

azure terraform azure-databricks databricks terraform-provider-databricks

04.06.2022

визуализировать DAG-файлы воздушного потока на блоках данных

Я хотел бы запустить DAG-файлы воздушного потока на блоках данных. Я установил apache-airflow 1.9.0 (пакет python3) на databricks. В блокноте Databricks я использовал: %sh airflow list_dags Я получил:...

450 просмотров

azure python airflow azure-databricks databricks

11.06.2022

Публикации по теме 'azure-databricks'

Как подключить Azure Data Lake Gen 2 или хранилище BLOB-объектов Azure к Azure Databricks

Вопросы по теме 'azure-databricks'

Похожие вопросы