Публикации по теме 'azure-databricks'
Как подключить Azure Data Lake Gen 2 или хранилище BLOB-объектов Azure к Azure Databricks
Хранилище BLOB-объектов Azure — это служба хранения, предоставляемая Microsoft Azure, которая используется для хранения больших объемов неструктурированных объектных данных, таких как текстовые или двоичные данные. Хранилище BLOB-объектов можно использовать для предоставления данных всему миру или для хранения данных приложений в частном порядке.
Azure Data Lake Storage Gen2 (также известное как ADLS Gen2) — это решение озера данных нового поколения для аналитики больших данных...
Вопросы по теме 'azure-databricks'
spark.conf.set с SparkR
У меня есть кластер Databricks, работающий в Azure, и мне нужны данные для чтения и записи из Azure Data Lake Storage с использованием SparkR / sparklyr . Поэтому я настроил два ресурса .
Теперь мне нужно предоставить среде Spark необходимые...
791 просмотров
schedule
07.06.2023
Удалите файлы из каталога после загрузки в Databricks с помощью dbutils
Очень умный человек из StackOverflow помог мне скопировать файлы в каталог из Databricks здесь: копии файлов
Я использую тот же принцип для удаления файлов после их копирования, как показано в ссылке:
for i in range (0, len(files)):
file =...
15818 просмотров
schedule
20.08.2022
Azure Databricks без / FileStore и / Users
Я только что создал рабочую область Databricks в Azure и настроил токен доступа для интерфейса командной строки Databricks.
Все работает. Подключения хранилища BLOB-объектов, доступ к базе данных JDBC и интерфейс командной строки.
Но: файловая...
318 просмотров
schedule
06.12.2021
Эффективный способ чтения паркетных файлов между диапазоном дат в Azure Databricks
Я хотел бы знать, является ли приведенный ниже псевдокод эффективным методом чтения нескольких паркетных файлов между диапазоном дат, хранящимся в Azure Data Lake, из PySpark (Azure Databricks). Примечание: файлы паркета не разбиты на разделы по...
6045 просмотров
schedule
15.05.2022
Обязательна ли управляемая группа ресурсов для создания Azure Databricks
при создании Azure Databricks управляемая группа ресурсов создается автоматически с использованием ресурсов (vnet, nsg и учетной записи хранения). У меня вопрос: можно ли создать Azure Databricks без управляемой группы ресурсов. Если нет, мы можем...
2588 просмотров
schedule
08.01.2024
Лучший способ экспортировать большой фрейм данных в один файл, который может использоваться Power BI
Я обрабатываю большое количество входных файлов в Azure Databricks. В моем последнем кадре данных примерно 98 миллионов строк.
Мне нужно экспортировать это из Databricks, чтобы я мог импортировать его в Power BI для создания отчетов.
Power BI в...
255 просмотров
schedule
06.06.2023
Как передать объект из поиска фабрики данных Azure в записную книжку, чтобы я мог использовать объект / json в скрипте python
Я впервые использую фабрику данных Azure.
У меня есть поиск с исходным набором данных, который представляет собой таблицу из хранилища таблиц Azure
У меня есть записная книжка, в которой есть базовый параметр под названием «ввод» со значением:...
2329 просмотров
schedule
04.05.2022
Как записать каждый раздел фрейма данных в разные таблицы
Я использую Databricks для подключения к Eventhub, где каждое сообщение, поступающее из EventHub, может сильно отличаться от другого.
В сообщении у меня есть тело и идентификатор.
Я ищу производительность, поэтому я избегаю сбора данных или...
108 просмотров
schedule
26.03.2022
Подключение концентраторов событий к Azure Databricks
Я хочу добавить библиотеки в Azure Databricks для подключения к концентраторам событий. Я буду писать блокноты на питоне. Итак, какую библиотеку следует добавить для подключения к концентраторам событий?
В соответствии с моими поисками до сих пор...
134 просмотров
schedule
04.09.2023
Проблемы при записи данных в Delta Lake в блоках данных Azure (обнаружен несовместимый формат)
Мне нужно прочитать набор данных в DataFrame, а затем записать данные в Delta Lake. Но у меня есть следующее исключение:
AnalysisException: 'Incompatible format detected.\n\nYou are trying to write to...
6120 просмотров
schedule
29.04.2022
Pyspark ImportError: нет модуля с именем spark_df_profiling
Я пытаюсь использовать spark_df_profiling в среде блоков данных pyspark. Я получаю следующую ошибку.
> pip install spark_df_profiling
from datetime import datetime
import spark_df_profiling
df = sql("select * from ab.data").cache()...
687 просмотров
schedule
21.04.2024
Записать в CSV-файл из таблицы deltalake в Databricks
Как мне записать содержимое таблицы deltalake в файл csv в Azure databricks? Есть ли способ, при котором мне не нужно сначала выгружать содержимое в фрейм данных? https://docs.databricks.com/delta/delta-batch.html
712 просмотров
schedule
12.06.2024
Какая из моих записных книжек Databricks использует узлы кластера?
Я запускаю несколько записных книжек в кластере Azure Databricks Spark одновременно.
Как я могу увидеть интенсивность использования узлов кластера каждой записной книжкой \ приложением за определенный период времени?
Обе вкладки "Spark Cluster...
95 просмотров
schedule
06.04.2024
Azure Databrics - запуск Spark Jar из хранилища DataLake 2-го поколения
Я пытаюсь запустить искру из базы данных Azure. В настоящее время я могу создать задание с загрузкой jar-файла в рабочем пространстве Databrics и запустить его.
Мои запросы:
Есть ли способ получить доступ к банке, находящейся в хранилище...
445 просмотров
schedule
23.04.2022
Ошибка подключения к хранилищу DataLake (ADLS Gen2) из блоков данных
Я пытаюсь подключиться к хранилищу dataLake Gen2 из databricks python, к сожалению, у меня возникла ошибка.
Код:
dbutils.fs.ls("abfss://<fsystem name>@<storage name>.dfs.core.windows.net/<folder name>")
Сообщение об...
4598 просмотров
schedule
17.06.2022
Не удалось создать кластер Azure Databricks из-за недоступных экземпляров
Я пытаюсь создать кластер в Azure Databricks и получаю сообщение об ошибке
Resources were not reachable via SSH. If the problem persists, this usually indicates a network environment misconfiguration. Please check your cloud provider...
1040 просмотров
schedule
11.09.2022
Как считывать данные в записную книжку Databricks из большого двоичного объекта Azure с помощью Azure Active Directory (AAD)
Я пытаюсь прочитать данные из некоторых контейнеров в свой блокнот и записать их в формат данных spark или pandas. Существует некоторая документация по использованию пароля учетной записи, но как это сделать с помощью Azure Active Directory?
622 просмотров
schedule
11.04.2023
Я получаю непрерывные файлы больших двоичных объектов в хранилище больших двоичных объектов. Мне нужно загрузить в Databricks и поместить в базу данных SQL Azure. Фабрика данных для организации этого конвейера
Я постоянно получаю данные в хранилище BLOB-объектов. У меня изначально есть 5 файлов больших двоичных объектов в хранилище больших двоичных объектов, которые я могу загрузить из большого двоичного объекта в базу данных SQL Azure с помощью Databricks...
223 просмотров
schedule
24.04.2022
Запуск записной книжки Azure databricks (python) через Terraform
Пожалуйста, помогите мне со скриптом terraform для запуска записной книжки Azure databricks (python) в другой среде.
346 просмотров
schedule
04.06.2022
визуализировать DAG-файлы воздушного потока на блоках данных
Я хотел бы запустить DAG-файлы воздушного потока на блоках данных.
Я установил apache-airflow 1.9.0 (пакет python3) на databricks.
В блокноте Databricks я использовал:
%sh
airflow list_dags
Я получил:...
450 просмотров
schedule
11.06.2022