Вопросы по теме 'spark-avro'

Как прочитать / проанализировать * только * схему JSON из файла, содержащего сообщение avro в двоичном формате?
У меня есть сообщение avro в двоичном формате в файле. Obj ^ A ^ D ^ Vavro.schemaÞ ^ B {"type": "record", "name": "rec", "namespace": "ns", "fields": [{"name": "id", "type": ["int", "null"]}, {"name": "name", "type": ["string", "null"]},...
858 просмотров
schedule 18.09.2022

Начальная загрузка jar spark-avro в кластер Amazon EMR
Я хочу прочитать файлы avro, расположенные в Amazon S3, из блокнота Zeppelin. Насколько я понимаю, у Databricks есть замечательный пакет для этого spark-avro . Какие шаги мне нужно предпринять, чтобы загрузить этот jar-файл в мой кластер и...
2074 просмотров

Преобразование данных в паркет в Spark
У меня есть устаревшие данные в S3, которые я хочу преобразовать в формат паркета с помощью Spark 2 с помощью Java API. У меня есть желаемая схема Avro (файлы .avsc) и их сгенерированные классы Java с использованием компилятора Avro, и я хочу...
1434 просмотров
schedule 23.05.2022

Как в Spark преобразовать несколько фреймов данных в avro?
У меня есть задание Spark, которое обрабатывает некоторые данные в несколько отдельных фреймов данных. Я храню эти фреймы данных в списке, то есть фреймы данных []. В конце концов, я хотел бы объединить эти фреймы данных в иерархический формат и...
953 просмотров
schedule 03.03.2023

Как прочитать схему Avro из пустого RDD?
Я использую AvroKeyInputFormat для чтения файлов avro: val records = sc.newAPIHadoopFile[AvroKey[T], NullWritable, AvroKeyInputFormat[T]](path) .map(_._1.datum()) Поскольку мне нужно размышлять над схемой в своей работе, я получаю схему...
348 просмотров
schedule 24.09.2022

Сопоставьте файлы Avro с классом Java с разными именами полей
У меня проблема с простой задачей spark, которая читает файл Avro, а затем сохраняет его как таблицу паркета Hive. У меня есть 2 типа файла, в целом они одинаковы, но ключевая структура немного отличается - имена полей. Тип 1 root |-- pk:...
445 просмотров

Установка значений во вложенном поле в схеме Avro
Я пытаюсь создать данные avro в kafka с помощью GenericData.Record, но получаю следующее исключение: Исключение в потоке "main" org.apache.avro.AvroRuntimeException: недопустимое поле схемы: emailAddresses.email Вот моя схема: {...
4214 просмотров
schedule 09.06.2022

Преобразование StructType в схему Avro, возвращает тип как Union при использовании блоков данных spark-avro
Я использую блоки данных spark-avro для преобразования схемы данных в схему avro. Возвращенная схема avro не имеет значения по умолчанию. Это вызывает проблемы, когда я пытаюсь создать общую запись из схемы. Может ли кто-нибудь помочь с правильным...
1844 просмотров

Spark читает файл Avro
Я использую com.databricks.spark.avro. Когда я запускаю его из spark-shell вот так: spark-shell --jar spark-avro_2.11-4.0.0.jar , я могу прочитать файл, выполнив следующие действия: import org.apache.spark.sql.SQLContext val sqlContext = new...
9838 просмотров
schedule 02.05.2022

Невозможно получить доступ к десериализованным вложенным элементам общей записи avro в scala
Я использую структурированную потоковую передачу (Spark 2.4.0) для чтения сообщений avro через kafka и использую Confluent schema-Registry для получения / чтения схемы Я не могу получить доступ к глубоко вложенным полям. Схема выглядит так в...
204 просмотров