AWS Glue - чтение из таблицы sql server и запись в S3 как пользовательский файл CSV

Я работаю над Glue с января и работал с несколькими POC, озерами производственных данных с использованием AWS Glue / Databricks / EMR и т. Д. Я использовал AWS Glue для чтения данных из S3 и выполнения ETL перед загрузкой в ​​Redshift, Aurora и т. Д.

Теперь мне нужно читать данные из исходной таблицы, которая находится на SQL SERVER, и извлекать данные, записывать их в корзину S3 в настраиваемый (определяемый пользователем) файл CSV, например employee.csv.

Я ищу несколько указателей, чтобы сделать это, пожалуйста.

Спасибо


person Yuva    schedule 14.09.2018    source источник
comment
был ли мой ответ полезным?   -  person botchniaque    schedule 26.09.2018


Ответы (2)


Вы можете подключиться, используя JDBC, указав connectionType=sqlserver, чтобы получить динамический фрейм, подключающийся к SQL SERVER. См. Здесь документы GlueContext

dynF = glueContext.getSource(connection_type="sqlserver", url = ..., dbtable=..., user=..., password=)
person botchniaque    schedule 18.09.2018

Эта задача соответствует сценарию использования AWS DMS (Data Migration Service). DMS предназначена либо для переноса данных из одного хранилища данных в другое, либо для их синхронизации. Он, безусловно, может поддерживать синхронизацию, а также преобразовывать ваш источник (то есть MSSQL) в вашу цель (то есть S3).

В вашем случае есть одно существенное ограничение. Текущая синхронизация с источником MSSQL работает, только если у вас лицензия Enterprise или Developer Edition и для версий 2016-2019.

person Nicolas Dao    schedule 19.03.2021