Каталог данных AWS Glue в качестве хранилища метаданных для внешних сервисов, таких как Databricks

Допустим, данные находятся на AWS. Использование S3 в качестве хранилища и Glue в качестве каталога данных. Итак, мы можем легко использовать athena, redshift или EMR для запроса данных на S3, используя Glue в качестве хранилища метаданных.

У меня вопрос: можно ли предоставить каталог данных Glue в качестве хранилища метаданных для внешних сервисов, таких как Databricks, размещенных на AWS?


person Obaid    schedule 16.04.2018    source источник


Ответы (2)


Databricks предоставила несколько приличных документов / рецензий (см. docs и сообщение в блоге), хотя они касаются интеграции пользовательских / устаревших хранилищ Hive, а не самого Glue.

Кроме того - в качестве плана Б - должна быть возможность проверять определения таблиц / разделов, которые есть в метасторе Databricks, и выполнять одностороннюю репликацию в Glue через Java SDK (или, может быть, и наоборот. , сопоставляя ответы API AWS с последовательностями операторов create table / create partition). Конечно, это связано с довольно сложными угловыми случаями, такими как каскадное удаление разделов / таблиц и т. Д., Но для некоторых простых вещей, предназначенных только для создания, это, по крайней мере, кажется доступным.

person Anton Kraievyi    schedule 26.06.2018

Теперь Databricks предоставляет документацию для создания каталога данных Glue в качестве хранилища метаданных. Это нужно сделать, выполнив следующие действия:

  1. Создайте роль и политику IAM для доступа к каталогу данных Glue
  2. Создайте политику для целевого каталога клеев
  3. Найдите роль IAM, используемую для создания развертывания Databricks.
  4. Добавьте роль IAM каталога Glue в политику EC2
  5. Добавление роли IAM каталога Glue в рабочую область Databricks
  6. Запуск кластера с ролью Glue Catalog IAM

Ссылка: https://docs.databricks.com/data/metastores/aws-glue-metastore.html.

person matiasm    schedule 10.01.2020