Вопросы по теме 'aws-glue-data-catalog'

AWS Glue: импорт JSON из Datalake (S3) со смешанными данными
В настоящее время я пытаюсь понять, как создать каталог данных нашего озера данных (=Источник). Предыстория: У нас есть архитектура, управляемая событиями, и мы начали хранить все события, создаваемые нашим приложением, в озере данных (S3...
904 просмотров
schedule 30.06.2022

Задание AWS Glue Spark не поддерживает имя столбца в верхнем регистре с двойными кавычками
Постановка проблемы / основная причина: мы используем AWS Glue для загрузки данных из производственной базы данных PostGress в AWS DataLake. Glue внутренне использует задание Spark для перемещения данных. Однако наш процесс ETL не работает,...
1852 просмотров

Где хранится каталог данных AWS Glue?
Я изучаю каталог данных Glue и немного запутался. Я знаю, что каталог данных Glue хранит не сами данные, а только метаданные для баз данных и таблиц, но, тем не менее, где они хранятся?
630 просмотров

AWS ATHENA: HIVE_CANNOT_OPEN_SPLIT: ошибка при открытии разделения улья, несоответствие схемы при запросе файлов Parquet
HIVE_CANNOT_OPEN_SPLIT: Ошибка при открытии Hive split s3: //exp-mahesh-sandbox/Demo/Year=2017/Month=1/Day=3/part-00015-d0e1263a-616e-435f-b4f4-9154afb3f07d.c000.snappy .parquet (offset = 0, length = 12795): несоответствие схемы, в схеме метаданных...
2248 просмотров

Как добавить внешнее хранилище данных в AWS Glue Crawler
Для нового краулера я хочу извлечь данные из внешней базы данных MySQL, к которой я могу получить удаленный доступ, используя хост, имя пользователя и пароль. В Glue я застрял в настройке хранилища данных. Однако JDBC кажется близким, для этого...
98 просмотров

Сканер Glue не объединяет данные - также нет видимых данных в таблицах
Тестирую эту архитектуру: Kinesis Firehose → S3 → Glue → Athena. На данный момент я использую фиктивные данные, которые генерируются Kinesis, каждая строка выглядит так:...
267 просмотров

Клей create_dynamic_frame.from_catalog возвращает пустые данные
Я отлаживаю проблему, из-за которой create_dynamic_frame.from_catalog не возвращает данных, хотя я могу просматривать данные через Афину. Data Catelog указывает на папку S3, и есть несколько файлов с одинаковой структурой. Тип файла - csv,...
352 просмотров

Невозможно запустить spark.sql в каталоге AWS Glue в EMR при использовании Hudi
Наша настройка настроена так, что у нас есть Data Lake по умолчанию на AWS, использующий S3 в качестве хранилища и Glue Catalog в качестве нашего хранилища метаданных. Мы начинаем использовать Apache Hudi, и мы можем заставить его работать, следуя...
321 просмотров