Публикации по теме 'azure-databricks'


Как подключить Azure Data Lake Gen 2 или хранилище BLOB-объектов Azure к Azure Databricks
Хранилище BLOB-объектов Azure — это служба хранения, предоставляемая Microsoft Azure, которая используется для хранения больших объемов неструктурированных объектных данных, таких как текстовые или двоичные данные. Хранилище BLOB-объектов можно использовать для предоставления данных всему миру или для хранения данных приложений в частном порядке. Azure Data Lake Storage Gen2 (также известное как ADLS Gen2) — это решение озера данных нового поколения для аналитики больших данных...

Вопросы по теме 'azure-databricks'

spark.conf.set с SparkR
У меня есть кластер Databricks, работающий в Azure, и мне нужны данные для чтения и записи из Azure Data Lake Storage с использованием SparkR / sparklyr . Поэтому я настроил два ресурса . Теперь мне нужно предоставить среде Spark необходимые...
791 просмотров

Удалите файлы из каталога после загрузки в Databricks с помощью dbutils
Очень умный человек из StackOverflow помог мне скопировать файлы в каталог из Databricks здесь: копии файлов Я использую тот же принцип для удаления файлов после их копирования, как показано в ссылке: for i in range (0, len(files)): file =...
15818 просмотров
schedule 20.08.2022

Azure Databricks без / FileStore и / Users
Я только что создал рабочую область Databricks в Azure и настроил токен доступа для интерфейса командной строки Databricks. Все работает. Подключения хранилища BLOB-объектов, доступ к базе данных JDBC и интерфейс командной строки. Но: файловая...
318 просмотров
schedule 06.12.2021

Эффективный способ чтения паркетных файлов между диапазоном дат в Azure Databricks
Я хотел бы знать, является ли приведенный ниже псевдокод эффективным методом чтения нескольких паркетных файлов между диапазоном дат, хранящимся в Azure Data Lake, из PySpark (Azure Databricks). Примечание: файлы паркета не разбиты на разделы по...
6045 просмотров

Обязательна ли управляемая группа ресурсов для создания Azure Databricks
при создании Azure Databricks управляемая группа ресурсов создается автоматически с использованием ресурсов (vnet, nsg и учетной записи хранения). У меня вопрос: можно ли создать Azure Databricks без управляемой группы ресурсов. Если нет, мы можем...
2588 просмотров
schedule 08.01.2024

Лучший способ экспортировать большой фрейм данных в один файл, который может использоваться Power BI
Я обрабатываю большое количество входных файлов в Azure Databricks. В моем последнем кадре данных примерно 98 миллионов строк. Мне нужно экспортировать это из Databricks, чтобы я мог импортировать его в Power BI для создания отчетов. Power BI в...
255 просмотров
schedule 06.06.2023

Как передать объект из поиска фабрики данных Azure в записную книжку, чтобы я мог использовать объект / json в скрипте python
Я впервые использую фабрику данных Azure. У меня есть поиск с исходным набором данных, который представляет собой таблицу из хранилища таблиц Azure У меня есть записная книжка, в которой есть базовый параметр под названием «ввод» со значением:...
2329 просмотров

Как записать каждый раздел фрейма данных в разные таблицы
Я использую Databricks для подключения к Eventhub, где каждое сообщение, поступающее из EventHub, может сильно отличаться от другого. В сообщении у меня есть тело и идентификатор. Я ищу производительность, поэтому я избегаю сбора данных или...
108 просмотров
schedule 26.03.2022

Подключение концентраторов событий к Azure Databricks
Я хочу добавить библиотеки в Azure Databricks для подключения к концентраторам событий. Я буду писать блокноты на питоне. Итак, какую библиотеку следует добавить для подключения к концентраторам событий? В соответствии с моими поисками до сих пор...
134 просмотров
schedule 04.09.2023

Проблемы при записи данных в Delta Lake в блоках данных Azure (обнаружен несовместимый формат)
Мне нужно прочитать набор данных в DataFrame, а затем записать данные в Delta Lake. Но у меня есть следующее исключение: AnalysisException: 'Incompatible format detected.\n\nYou are trying to write to...
6120 просмотров
schedule 29.04.2022

Pyspark ImportError: нет модуля с именем spark_df_profiling
Я пытаюсь использовать spark_df_profiling в среде блоков данных pyspark. Я получаю следующую ошибку. > pip install spark_df_profiling from datetime import datetime import spark_df_profiling df = sql("select * from ab.data").cache()...
687 просмотров
schedule 21.04.2024

Записать в CSV-файл из таблицы deltalake в Databricks
Как мне записать содержимое таблицы deltalake в файл csv в Azure databricks? Есть ли способ, при котором мне не нужно сначала выгружать содержимое в фрейм данных? https://docs.databricks.com/delta/delta-batch.html
712 просмотров
schedule 12.06.2024

Какая из моих записных книжек Databricks использует узлы кластера?
Я запускаю несколько записных книжек в кластере Azure Databricks Spark одновременно. Как я могу увидеть интенсивность использования узлов кластера каждой записной книжкой \ приложением за определенный период времени? Обе вкладки "Spark Cluster...
95 просмотров

Azure Databrics - запуск Spark Jar из хранилища DataLake 2-го поколения
Я пытаюсь запустить искру из базы данных Azure. В настоящее время я могу создать задание с загрузкой jar-файла в рабочем пространстве Databrics и запустить его. Мои запросы: Есть ли способ получить доступ к банке, находящейся в хранилище...
445 просмотров

Ошибка подключения к хранилищу DataLake (ADLS Gen2) из ​​блоков данных
Я пытаюсь подключиться к хранилищу dataLake Gen2 из databricks python, к сожалению, у меня возникла ошибка. Код: dbutils.fs.ls("abfss://<fsystem name>@<storage name>.dfs.core.windows.net/<folder name>") Сообщение об...
4598 просмотров
schedule 17.06.2022

Не удалось создать кластер Azure Databricks из-за недоступных экземпляров
Я пытаюсь создать кластер в Azure Databricks и получаю сообщение об ошибке Resources were not reachable via SSH. If the problem persists, this usually indicates a network environment misconfiguration. Please check your cloud provider...
1040 просмотров

Как считывать данные в записную книжку Databricks из большого двоичного объекта Azure с помощью Azure Active Directory (AAD)
Я пытаюсь прочитать данные из некоторых контейнеров в свой блокнот и записать их в формат данных spark или pandas. Существует некоторая документация по использованию пароля учетной записи, но как это сделать с помощью Azure Active Directory?
622 просмотров

Я получаю непрерывные файлы больших двоичных объектов в хранилище больших двоичных объектов. Мне нужно загрузить в Databricks и поместить в базу данных SQL Azure. Фабрика данных для организации этого конвейера
Я постоянно получаю данные в хранилище BLOB-объектов. У меня изначально есть 5 файлов больших двоичных объектов в хранилище больших двоичных объектов, которые я могу загрузить из большого двоичного объекта в базу данных SQL Azure с помощью Databricks...
223 просмотров

Запуск записной книжки Azure databricks (python) через Terraform
Пожалуйста, помогите мне со скриптом terraform для запуска записной книжки Azure databricks (python) в другой среде.
346 просмотров

визуализировать DAG-файлы воздушного потока на блоках данных
Я хотел бы запустить DAG-файлы воздушного потока на блоках данных. Я установил apache-airflow 1.9.0 (пакет python3) на databricks. В блокноте Databricks я использовал: %sh airflow list_dags Я получил:...
450 просмотров