Azure Databrics - запуск Spark Jar из хранилища DataLake 2-го поколения

Я пытаюсь запустить искру из базы данных Azure. В настоящее время я могу создать задание с загрузкой jar-файла в рабочем пространстве Databrics и запустить его.

Мои запросы:

  1. Есть ли способ получить доступ к банке, находящейся в хранилище GEN2 DataLake, и выполнить искровую отправку из рабочей области Databrics или даже из Azure ADF? (Поскольку связь между рабочей областью и хранилищем GEN2 защищена "fs.azure.account.key")

  2. Есть ли способ сделать пробную отправку из записной книжки данных?


person partha_devArch    schedule 11.09.2019    source источник
comment
вы можете запланировать блокнот с данными. См. docs.databricks.com/user-guide/jobs.html. # run-a-job и docs.databricks.com / руководство пользователя / записные книжки /   -  person maogautam    schedule 12.09.2019
comment
Я это уже сделал. (Я написал в первой строке.) Я ищу способ конкретно выполнить пункты 1 и 2. Не могли бы вы предложить или прокомментировать это?   -  person partha_devArch    schedule 13.09.2019


Ответы (2)


Есть ли способ получить доступ к банке, находящейся в хранилище GEN2 DataLake, и выполнить искровую отправку из рабочей области Databrics или даже из Azure ADF? (Поскольку связь между рабочей областью и хранилищем GEN2 защищена "fs.azure.account.key") К сожалению, вы не можете получить доступ к банке, находящейся в хранилище Azure, такой как учетная запись ADLS Gen2 / Gen1.

Примечание. Аргументы --jars, --py-files, --files поддерживают пути DBFS и S3.

Обычно библиотеки Jar хранятся в dbfs: / FileStore / jars.

Вам необходимо загрузить библиотеки в dbfs и передать их в качестве параметров в активности jar.

Для получения дополнительных сведений см. "Преобразование данных с помощью запуска активность jar в Azure Databricks с использованием ADF ".

Есть ли способ сделать искру из записной книжки?

Чтобы ответить на второй вопрос, вы можете сослаться на следующие типы вакансий:

введите здесь описание изображения

Ссылка: SparkSubmit и "Создать вакансию"

Надеюсь это поможет.


Если это отвечает на ваш запрос, нажмите «Отметить как ответ» и «проголосовать за» для того же. И, если у вас возникнут дополнительные вопросы, дайте нам знать.

person CHEEKATLAPRADEEP-MSFT    schedule 18.09.2019
comment
Спасибо за ваш ответ. В своем посте я упомянул, что уже умею это делать. Хотел найти способ выполнить обычную отправку Spark, как мы это делаем из скриптов или блокнотов Jupyter. - person partha_devArch; 19.09.2019

Наконец я понял, как это запустить:

  1. Вы можете запустить банку Databricks из ADF и присоединить ее к существующему кластеру, для которого в кластере будет настроен ключ adls.

  2. Сделать искру с ноутбука не получится. Но вы можете создать искровое задание в заданиях или использовать Databricks Run Sumbit api, чтобы выполнить искру-отправку.

person partha_devArch    schedule 18.02.2020