Вопросы по теме 'spark-avro'
Как прочитать / проанализировать * только * схему JSON из файла, содержащего сообщение avro в двоичном формате?
У меня есть сообщение avro в двоичном формате в файле.
Obj ^ A ^ D ^ Vavro.schemaÞ ^ B {"type": "record", "name": "rec", "namespace": "ns", "fields": [{"name": "id", "type": ["int", "null"]}, {"name": "name", "type": ["string", "null"]},...
858 просмотров
schedule
18.09.2022
Начальная загрузка jar spark-avro в кластер Amazon EMR
Я хочу прочитать файлы avro, расположенные в Amazon S3, из блокнота Zeppelin. Насколько я понимаю, у Databricks есть замечательный пакет для этого spark-avro . Какие шаги мне нужно предпринять, чтобы загрузить этот jar-файл в мой кластер и...
2074 просмотров
schedule
07.03.2023
Преобразование данных в паркет в Spark
У меня есть устаревшие данные в S3, которые я хочу преобразовать в формат паркета с помощью Spark 2 с помощью Java API.
У меня есть желаемая схема Avro (файлы .avsc) и их сгенерированные классы Java с использованием компилятора Avro, и я хочу...
1434 просмотров
schedule
23.05.2022
Как в Spark преобразовать несколько фреймов данных в avro?
У меня есть задание Spark, которое обрабатывает некоторые данные в несколько отдельных фреймов данных. Я храню эти фреймы данных в списке, то есть фреймы данных []. В конце концов, я хотел бы объединить эти фреймы данных в иерархический формат и...
953 просмотров
schedule
03.03.2023
Как прочитать схему Avro из пустого RDD?
Я использую AvroKeyInputFormat для чтения файлов avro:
val records = sc.newAPIHadoopFile[AvroKey[T], NullWritable, AvroKeyInputFormat[T]](path)
.map(_._1.datum())
Поскольку мне нужно размышлять над схемой в своей работе, я получаю схему...
348 просмотров
schedule
24.09.2022
Сопоставьте файлы Avro с классом Java с разными именами полей
У меня проблема с простой задачей spark, которая читает файл Avro, а затем сохраняет его как таблицу паркета Hive.
У меня есть 2 типа файла, в целом они одинаковы, но ключевая структура немного отличается - имена полей.
Тип 1
root
|-- pk:...
445 просмотров
schedule
09.11.2022
Установка значений во вложенном поле в схеме Avro
Я пытаюсь создать данные avro в kafka с помощью GenericData.Record, но получаю следующее исключение:
Исключение в потоке "main" org.apache.avro.AvroRuntimeException: недопустимое поле схемы: emailAddresses.email
Вот моя схема:
{...
4214 просмотров
schedule
09.06.2022
Преобразование StructType в схему Avro, возвращает тип как Union при использовании блоков данных spark-avro
Я использую блоки данных spark-avro для преобразования схемы данных в схему avro. Возвращенная схема avro не имеет значения по умолчанию. Это вызывает проблемы, когда я пытаюсь создать общую запись из схемы. Может ли кто-нибудь помочь с правильным...
1844 просмотров
schedule
24.12.2022
Spark читает файл Avro
Я использую com.databricks.spark.avro. Когда я запускаю его из spark-shell вот так: spark-shell --jar spark-avro_2.11-4.0.0.jar , я могу прочитать файл, выполнив следующие действия:
import org.apache.spark.sql.SQLContext
val sqlContext = new...
9838 просмотров
schedule
02.05.2022
Невозможно получить доступ к десериализованным вложенным элементам общей записи avro в scala
Я использую структурированную потоковую передачу (Spark 2.4.0) для чтения сообщений avro через kafka и использую Confluent schema-Registry для получения / чтения схемы
Я не могу получить доступ к глубоко вложенным полям.
Схема выглядит так в...
204 просмотров
schedule
27.02.2022