Вопросы по теме 'aws-glue-data-catalog'
AWS Glue: импорт JSON из Datalake (S3) со смешанными данными
В настоящее время я пытаюсь понять, как создать каталог данных нашего озера данных (=Источник).
Предыстория:
У нас есть архитектура, управляемая событиями, и мы начали хранить все события, создаваемые нашим приложением, в озере данных (S3...
904 просмотров
schedule
30.06.2022
Задание AWS Glue Spark не поддерживает имя столбца в верхнем регистре с двойными кавычками
Постановка проблемы / основная причина: мы используем AWS Glue для загрузки данных из производственной базы данных PostGress в AWS DataLake. Glue внутренне использует задание Spark для перемещения данных. Однако наш процесс ETL не работает,...
1852 просмотров
schedule
19.12.2022
Где хранится каталог данных AWS Glue?
Я изучаю каталог данных Glue и немного запутался. Я знаю, что каталог данных Glue хранит не сами данные, а только метаданные для баз данных и таблиц, но, тем не менее, где они хранятся?
630 просмотров
schedule
31.01.2023
AWS ATHENA: HIVE_CANNOT_OPEN_SPLIT: ошибка при открытии разделения улья, несоответствие схемы при запросе файлов Parquet
HIVE_CANNOT_OPEN_SPLIT: Ошибка при открытии Hive split s3: //exp-mahesh-sandbox/Demo/Year=2017/Month=1/Day=3/part-00015-d0e1263a-616e-435f-b4f4-9154afb3f07d.c000.snappy .parquet (offset = 0, length = 12795): несоответствие схемы, в схеме метаданных...
2248 просмотров
schedule
15.07.2022
Как добавить внешнее хранилище данных в AWS Glue Crawler
Для нового краулера я хочу извлечь данные из внешней базы данных MySQL, к которой я могу получить удаленный доступ, используя хост, имя пользователя и пароль. В Glue я застрял в настройке хранилища данных. Однако JDBC кажется близким, для этого...
98 просмотров
schedule
02.07.2023
Сканер Glue не объединяет данные - также нет видимых данных в таблицах
Тестирую эту архитектуру: Kinesis Firehose → S3 → Glue → Athena. На данный момент я использую фиктивные данные, которые генерируются Kinesis, каждая строка выглядит так:...
267 просмотров
schedule
01.09.2023
Клей create_dynamic_frame.from_catalog возвращает пустые данные
Я отлаживаю проблему, из-за которой create_dynamic_frame.from_catalog не возвращает данных, хотя я могу просматривать данные через Афину.
Data Catelog указывает на папку S3, и есть несколько файлов с одинаковой структурой. Тип файла - csv,...
352 просмотров
schedule
28.04.2022
Невозможно запустить spark.sql в каталоге AWS Glue в EMR при использовании Hudi
Наша настройка настроена так, что у нас есть Data Lake по умолчанию на AWS, использующий S3 в качестве хранилища и Glue Catalog в качестве нашего хранилища метаданных.
Мы начинаем использовать Apache Hudi, и мы можем заставить его работать, следуя...
321 просмотров
schedule
30.07.2023