Вопросы по теме 'aws-glue'

Задания AWS Glue не записываются в S3
Я только что поигрался с Glue, но еще не получил его, чтобы успешно создать новую таблицу в существующем ведре S3. Задание будет выполнено без ошибок, но в S3 никогда не будет вывода. Вот что такое автоматически сгенерированный код:...
3247 просмотров
schedule 03.04.2022

Вызов хранимой процедуры из скрипта aws Glue
Как лучше всего вызвать хранимую процедуру в сценарии AWS Glue после выполнения задания ETL? Я использую PySpark для извлечения данных из S3 и сохранения в промежуточной таблице. После этого процесса необходимо вызвать хранимую процедуру. Эта...
4018 просмотров

AWS Athena возвращает нулевые записи из таблиц, созданных на основе входного CSV-файла GLUE Crawler из S3
Часть первая: Я попытался запустить glue crawler на фиктивном csv, загруженном в s3, он создал таблицу, но когда я пытаюсь просмотреть таблицу в athena и запрашивать ее, он показывает возвращенные нулевые записи. Но демонстрационные данные ELB...
11070 просмотров

Сбой задания AWS Glue для больших входных CSV-данных на s3
Для небольших входных файлов s3 (~ 10 ГБ) задание склеивания ETL работает нормально, но для большего набора данных (~ 200 ГБ) задание не выполняется. Добавление части кода ETL. # Converting Dynamic frame to dataframe df =...
3159 просмотров

Есть ли способ запустить сканер клея aws после завершения работы?
Например, я запускаю ETL, и для целевой таблицы могут быть добавлены новые поля или столбцы. Для обнаружения изменений в таблице должен быть запущен краулер, но он может запускаться только вручную или по расписанию. Может ли сканер запускаться...
2784 просмотров
schedule 14.09.2022

(AWS) Афина: результаты запроса кажутся слишком короткими
Результаты моих запросов по Афине слишком короткие. Пытаюсь понять, почему? Настраивать: Каталоги клея (размером 118,6 Гб). Данные: хранятся в S3 как в формате CSV, так и в формате JSON. Athena Query: когда я запрашиваю данные для всей...
2827 просмотров

Получение ошибки при преобразовании DynamicFrame в Spark DataFrame с использованием toDF
Я сказал, что использую AWS Glue для чтения данных с использованием каталога данных и GlueContext и преобразования в соответствии с требованиями. val spark: SparkContext = new SparkContext() val glueContext: GlueContext = new GlueContext(spark)...
1796 просмотров

AWS Glue Job работает слишком медленно
У нас есть следующее требование: Ежегодные XML-файлы (размером от 15 до 20 ГБ) с 1990 по 2018 год. Еженедельные файлы XML (размером от 3 до 6 ГБ), содержащие обновленные записи XML для любых годовых данных с 1990 по 2018 год. Нам нужно...
5039 просмотров
schedule 04.11.2022

AWS Glue: Redshift Upsert
Проведя небольшое исследование, я вижу, что, поскольку Redshift не поддерживает слияние / обновление, некоторые люди используют промежуточные таблицы для обновления / вставки записей. Поскольку Redshift также не поддерживает процедуры (триггеры и т....
1805 просмотров
schedule 21.04.2022

Команда восстановления MSCK в задании AWS Glue Catalog
Можно ли запланировать задание AWS Glue для выполнения команд восстановления MSCK, чтобы метаданные для вновь добавленного раздела добавлялись в каталог Glue? Может ли сценарий Glue ETL выполнять команду MSCK REPAIR TABLE без вызова Athena?
1606 просмотров
schedule 28.02.2023

Каталог данных AWS Glue в качестве хранилища метаданных для внешних сервисов, таких как Databricks
Допустим, данные находятся на AWS. Использование S3 в качестве хранилища и Glue в качестве каталога данных. Итак, мы можем легко использовать athena, redshift или EMR для запроса данных на S3, используя Glue в качестве хранилища метаданных. У...
1218 просмотров

Цикл через большой DynamicFrame для вывода на S3, чтобы обойти ошибку maxResultSize
У меня есть большой DynamicFrame в задании AWS Glue ETL. При попытке вывести эти данные на S3 происходит сбой, так как задача слишком велика. Ошибка: Вызвано: org.apache.spark.SparkException: задание прервано из-за сбоя этапа: общий размер...
1422 просмотров
schedule 12.02.2023

Сканер AWS не смог классифицировать хранилища типов файлов в S3, если его размер ›1 МБ
Когда я пытаюсь определить тип файла с помощью Crawler размером> = 1 МБ входного файла Json, он создает таблицу в связке с типом классификации «Неизвестно». Но когда размер составляет ‹1 МБ, он успешно классифицирует тип файла как JSON. Я...
541 просмотров
schedule 07.03.2023

ЗАДАНИЕ AWS Glue: сбой команды с кодом ошибки 1
У нас есть скрипт python для нашего клеевого задания, и триггеры запускаются каждый час для преобразования JSON S3 в файлы паркета, и мы получаем следующую проблему. Следующие журналы берутся из облачных часов для jobId:...
4414 просмотров
schedule 16.02.2023

Как обработать "0000-00-00" в AWS Glue - pyspark
Я использую клей AWS для чтения таблиц AWS Aurora DB (MySQL) и записи в файлы S3. Таблица MySQL имеет значения столбца даты «0000-00-00», что разрешено в MySQL. Из-за этого моя работа Glue (PySpark) терпит неудачу. Как с этим справиться в коде...
228 просмотров

Какие события CloudWatch инициируют запуск задания Glue?
У меня есть ряд заданий Glue, которые зависят от данных в S3, которые сбрасываются туда отдельным заданием DMS. У меня это задание DMS выполняется из задания cron на экземпляре EC2. Кажется, что все триггерные функции Glue связаны только с заданиями...
774 просмотров
schedule 20.11.2022

Невозможно поместить данные / объект в корзину S3 с помощью Glue Job, когда включено шифрование KMS
У меня есть задание Glue, которое извлекает данные из одного ведра s3 и передает / помещает их в другое. Моя работа работает правильно, если я отключу шифрование KMS, но не работаю с включенным шифрованием KMS. Ошибка: произошла ошибка при вызове...
1452 просмотров

sql-запрос для создания карты массива в aws athena (presto)
У меня есть таблица в aws athena со следующими столбцами Company name Employee Name Salary ------------------------------------ Apple | John | 50 Apple | Dima | 100 Microsoft | Bart | 75 Google |...
1619 просмотров
schedule 03.04.2022

AWS Glue - чтение из таблицы sql server и запись в S3 как пользовательский файл CSV
Я работаю над Glue с января и работал с несколькими POC, озерами производственных данных с использованием AWS Glue / Databricks / EMR и т. Д. Я использовал AWS Glue для чтения данных из S3 и выполнения ETL перед загрузкой в ​​Redshift, Aurora и т. Д....
1090 просмотров

Разница в результатах запроса между EMR-Presto и Athena
Я подключил каталог Glue к Athena и экземпляр EMR (с установленным presto). Я попытался выполнить один и тот же запрос на обоих, но получаю разные результаты. EMR дает 0 строк, но Афина дает 43 строки. Запрос довольно простой с left join , group...
1244 просмотров
schedule 19.08.2022