Статьи по тематике aws-glue [amazon-s3, aws-glue, amazon-web-services, aws-lambda, apache-spark]

Вопросы по теме 'aws-glue'

Я только что поигрался с Glue, но еще не получил его, чтобы успешно создать новую таблицу в существующем ведре S3. Задание будет выполнено без ошибок, но в S3 никогда не будет вывода. Вот что такое автоматически сгенерированный код:...

3247 просмотров

amazon-s3 aws-glue

03.04.2022

Вызов хранимой процедуры из скрипта aws Glue

Как лучше всего вызвать хранимую процедуру в сценарии AWS Glue после выполнения задания ETL? Я использую PySpark для извлечения данных из S3 и сохранения в промежуточной таблице. После этого процесса необходимо вызвать хранимую процедуру. Эта...

4018 просмотров

amazon-web-services amazon-s3 aws-lambda apache-spark aws-glue

05.03.2023

AWS Athena возвращает нулевые записи из таблиц, созданных на основе входного CSV-файла GLUE Crawler из S3

Часть первая: Я попытался запустить glue crawler на фиктивном csv, загруженном в s3, он создал таблицу, но когда я пытаюсь просмотреть таблицу в athena и запрашивать ее, он показывает возвращенные нулевые записи. Но демонстрационные данные ELB...

11070 просмотров

csv amazon-web-services aws-glue amazon-redshift amazon-athena

23.07.2023

Сбой задания AWS Glue для больших входных CSV-данных на s3

Для небольших входных файлов s3 (~ 10 ГБ) задание склеивания ETL работает нормально, но для большего набора данных (~ 200 ГБ) задание не выполняется. Добавление части кода ETL. # Converting Dynamic frame to dataframe df =...

3159 просмотров

amazon-web-services amazon-s3 pyspark aws-glue spark-dataframe

20.02.2023

Есть ли способ запустить сканер клея aws после завершения работы?

Например, я запускаю ETL, и для целевой таблицы могут быть добавлены новые поля или столбцы. Для обнаружения изменений в таблице должен быть запущен краулер, но он может запускаться только вручную или по расписанию. Может ли сканер запускаться...

2784 просмотров

amazon-web-services aws-glue

14.09.2022

(AWS) Афина: результаты запроса кажутся слишком короткими

Результаты моих запросов по Афине слишком короткие. Пытаюсь понять, почему? Настраивать: Каталоги клея (размером 118,6 Гб). Данные: хранятся в S3 как в формате CSV, так и в формате JSON. Athena Query: когда я запрашиваю данные для всей...

2827 просмотров

amazon-web-services amazon-s3 aws-glue amazon-athena

02.11.2023

Получение ошибки при преобразовании DynamicFrame в Spark DataFrame с использованием toDF

Я сказал, что использую AWS Glue для чтения данных с использованием каталога данных и GlueContext и преобразования в соответствии с требованиями. val spark: SparkContext = new SparkContext() val glueContext: GlueContext = new GlueContext(spark)...

1796 просмотров

amazon-web-services apache-spark scala aws-glue

14.11.2022

AWS Glue Job работает слишком медленно

У нас есть следующее требование: Ежегодные XML-файлы (размером от 15 до 20 ГБ) с 1990 по 2018 год. Еженедельные файлы XML (размером от 3 до 6 ГБ), содержащие обновленные записи XML для любых годовых данных с 1990 по 2018 год. Нам нужно...

5039 просмотров

aws-glue

04.11.2022

AWS Glue: Redshift Upsert

Проведя небольшое исследование, я вижу, что, поскольку Redshift не поддерживает слияние / обновление, некоторые люди используют промежуточные таблицы для обновления / вставки записей. Поскольку Redshift также не поддерживает процедуры (триггеры и т....

1805 просмотров

aws-glue amazon-redshift

21.04.2022

Команда восстановления MSCK в задании AWS Glue Catalog

Можно ли запланировать задание AWS Glue для выполнения команд восстановления MSCK, чтобы метаданные для вновь добавленного раздела добавлялись в каталог Glue? Может ли сценарий Glue ETL выполнять команду MSCK REPAIR TABLE без вызова Athena?

1606 просмотров

amazon-web-services aws-glue

28.02.2023

Каталог данных AWS Glue в качестве хранилища метаданных для внешних сервисов, таких как Databricks

Допустим, данные находятся на AWS. Использование S3 в качестве хранилища и Glue в качестве каталога данных. Итак, мы можем легко использовать athena, redshift или EMR для запроса данных на S3, используя Glue в качестве хранилища метаданных. У...

1218 просмотров

amazon-s3 databricks aws-glue hive-metastore data-lake

05.11.2022

Цикл через большой DynamicFrame для вывода на S3, чтобы обойти ошибку maxResultSize

У меня есть большой DynamicFrame в задании AWS Glue ETL. При попытке вывести эти данные на S3 происходит сбой, так как задача слишком велика. Ошибка: Вызвано: org.apache.spark.SparkException: задание прервано из-за сбоя этапа: общий размер...

1422 просмотров

amazon-web-services pyspark etl aws-glue

12.02.2023

Сканер AWS не смог классифицировать хранилища типов файлов в S3, если его размер ›1 МБ

Когда я пытаюсь определить тип файла с помощью Crawler размером> = 1 МБ входного файла Json, он создает таблицу в связке с типом классификации «Неизвестно». Но когда размер составляет ‹1 МБ, он успешно классифицирует тип файла как JSON. Я...

541 просмотров

aws-glue

07.03.2023

ЗАДАНИЕ AWS Glue: сбой команды с кодом ошибки 1

У нас есть скрипт python для нашего клеевого задания, и триггеры запускаются каждый час для преобразования JSON S3 в файлы паркета, и мы получаем следующую проблему. Следующие журналы берутся из облачных часов для jobId:...

4414 просмотров

parquet aws-glue

16.02.2023

Как обработать "0000-00-00" в AWS Glue - pyspark

Я использую клей AWS для чтения таблиц AWS Aurora DB (MySQL) и записи в файлы S3. Таблица MySQL имеет значения столбца даты «0000-00-00», что разрешено в MySQL. Из-за этого моя работа Glue (PySpark) терпит неудачу. Как с этим справиться в коде...

228 просмотров

mysql amazon-web-services apache-spark pyspark aws-glue

02.12.2022

Какие события CloudWatch инициируют запуск задания Glue?

У меня есть ряд заданий Glue, которые зависят от данных в S3, которые сбрасываются туда отдельным заданием DMS. У меня это задание DMS выполняется из задания cron на экземпляре EC2. Кажется, что все триггерные функции Glue связаны только с заданиями...

774 просмотров

amazon-web-services aws-glue

20.11.2022

Невозможно поместить данные / объект в корзину S3 с помощью Glue Job, когда включено шифрование KMS

У меня есть задание Glue, которое извлекает данные из одного ведра s3 и передает / помещает их в другое. Моя работа работает правильно, если я отключу шифрование KMS, но не работаю с включенным шифрованием KMS. Ошибка: произошла ошибка при вызове...

1452 просмотров

amazon-web-services amazon-s3 amazon-iam aws-kms aws-glue

29.10.2022

sql-запрос для создания карты массива в aws athena (presto)

1619 просмотров

sql aws-glue amazon-athena presto

03.04.2022

AWS Glue - чтение из таблицы sql server и запись в S3 как пользовательский файл CSV

Я работаю над Glue с января и работал с несколькими POC, озерами производственных данных с использованием AWS Glue / Databricks / EMR и т. Д. Я использовал AWS Glue для чтения данных из S3 и выполнения ETL перед загрузкой в Redshift, Aurora и т. Д....

1090 просмотров

python python-2.7 amazon-web-services amazon-s3 aws-glue

03.05.2022

Разница в результатах запроса между EMR-Presto и Athena

Я подключил каталог Glue к Athena и экземпляр EMR (с установленным presto). Я попытался выполнить один и тот же запрос на обоих, но получаю разные результаты. EMR дает 0 строк, но Афина дает 43 строки. Запрос довольно простой с left join , group...

1244 просмотров

amazon-emr aws-glue amazon-athena presto

19.08.2022

Вопросы по теме 'aws-glue'

Похожие вопросы