Вопросы по теме 'parquet'

Spark SQL не может завершить запись данных Parquet с большим количеством сегментов
Я пытаюсь использовать Apache Spark SQL для переноса данных журнала json в S3 в файлы Parquet также на S3. Мой код в основном: import org.apache.spark._ val sqlContext = sql.SQLContext(sc) val data = sqlContext.jsonFile("s3n://...", 10e-6)...
3179 просмотров

Ошибка при записи перераспределенного SchemaRDD в Parquet с помощью Spark SQL
Я пытаюсь записать таблицы Spark SQL для сохранения в файлы Parquet. Из-за другого проблемы Мне нужно уменьшить количество разделов перед записью. Мой код data.coalesce(1000,shuffle=true).saveAsParquetFile("s3n://...") Это бросает...
868 просмотров
schedule 02.06.2022

Сохранение ›› 25T SchemaRDD в формате Parquet на S3
Я столкнулся с рядом проблем при попытке сохранить очень большой SchemaRDD, как в формате Parquet на S3. Я уже задавал конкретные вопросы по этим проблемам, но это то, что мне действительно нужно сделать. Код должен выглядеть примерно так import...
2235 просмотров

Impala - преобразовать существующую таблицу в формат паркета
У меня есть таблица с разделами, и я использую файлы avro или текстовые файлы для создания и вставки в таблицу. Как только стол будет готов, есть ли способ превратить его в паркет? Я имею в виду, что я знаю, что мы могли бы сказать CREATE TABLE...
9717 просмотров
schedule 05.07.2023

Разделение файла паркета
HI Я запускаю задания для свиней для обработки данных и сохранения результата в виде файла паркета. Теперь мне нужно разбить этот файл паркета на основе любого из присутствующих столбцов. Есть ли способ добиться этого?
497 просмотров
schedule 19.09.2023

Можно ли использовать файлы Parquet и текстовые файлы (csv) в качестве входных данных для одного и того же задания M/R?
Я пытался исследовать это, но не нашел полезной информации. У меня есть задание M/R, уже читающее с паркета (не секционированное, с использованием схемы бережливости). Мне нужно добавить в процесс еще один набор входных файлов, которые не в формате...
176 просмотров
schedule 20.03.2022

Spark SQL - разница между форматами сжатия gzip, snappy и lzo
Я пытаюсь использовать Spark SQL для записи файла parquet . По умолчанию Spark SQL поддерживает gzip , но также поддерживает и другие форматы сжатия, такие как snappy и lzo . В чем разница между этими форматами сжатия?
32644 просмотров
schedule 12.04.2023

Невозможно работать с данными Parquet, имеющими столбцы с косой чертой в Spark SQL
У меня есть файл паркета, я могу загрузить файл паркета в Spark SQL. Но в файлах Parquet есть много столбцов с косой чертой, что вызывает проблему, когда я пытаюсь получить данные из таблицы, используя эти столбцы. например имена столбцов:...
996 просмотров
schedule 06.07.2022

Загрузить файл вложенного паркета в Pig?
Файл паркета создается из файла Avro. Теперь мне нужно загрузить файл Parquet в Pig. Ниже приведена схема, которую я получил от команды parquet-tools schema . message Logs { optional group SUPER1 { optional group FIELD1 (LIST) {...
521 просмотров
schedule 14.01.2024

Как получить доступ к вложенным атрибутам в Spark sql
Я пытаюсь получить доступ к вложенным атрибутам файла json, хранящегося в таблице (паркете). Я могу получить доступ ко всем записям таблицы, выбрав * из теста; Однако я не могу получить доступ к вложенным атрибутам, написав запрос как: val tab =...
1117 просмотров

Использование Spark для записи паркетного файла в s3 поверх s3a очень медленно
Я пытаюсь записать parquet файл в Amazon S3 с помощью Spark 1.6.1 . Небольшой parquet , который я генерирую, ~2GB однажды записан, так что данных не так уж и много. Я пытаюсь доказать Spark как платформу, которую я могу использовать. В...
20419 просмотров

Spark SQL игнорирует свойство сжатия parquet.com, указанное в TBLPROPERTIES
Мне нужно создать таблицу Hive из Spark SQL, которая будет в формате PARQUET и сжатии SNAPPY. Следующий код создает таблицу в формате PARQUET, но со сжатием GZIP: hiveContext.sql("create table NEW_TABLE stored as parquet tblproperties...
2964 просмотров
schedule 12.04.2022

Как переместить таблицы HBase в HDFS в формате Parquet?
Мне нужно создать инструмент, который будет обрабатывать наше хранилище данных из HBase (HFiles) в HDFS в формате паркета. Пожалуйста, предложите один из лучших способов перемещения данных из таблиц HBase в таблицы Parquet. Нам нужно перенести...
4051 просмотров
schedule 16.02.2023

Cloudera 5.6: Паркет не поддерживает дату. См. HIVE-6384
В настоящее время я использую Cloudera 5.6, пытаясь создать таблицу формата паркета в таблице кустов на основе другой таблицы, но сталкиваюсь с ошибкой. create table sfdc_opportunities_sandbox_parquet like sfdc_opportunities_sandbox STORED AS...
15894 просмотров
schedule 30.03.2023

Каков размер блока по умолчанию для корзины s3?
Пишу паркетный файл в s3. Я должен знать размер блока s3, чтобы я мог соответственно установить размер группы строк. как 1 размер группы строк = размер блока s3 по умолчанию. (размер группы строк по умолчанию в паркете составляет 128 МБ. Но если...
3553 просмотров

Avro: преобразовать схему UNION в схему RECORD
У меня есть автоматически сгенерированная схема Avro для простой иерархии классов: trait T {def name: String} case class A(name: String, value: Int) extends T case class B(name: String, history: Array[String]) extends T Выглядит это так:...
2602 просмотров
schedule 11.04.2022

Почему файлы Spark Parquet для агрегата больше оригинала?
Я пытаюсь создать сводный файл для использования конечными пользователями, чтобы они не обрабатывали несколько источников с файлами гораздо большего размера. Для этого я: A) перебираю все исходные папки, удаляя 12 наиболее часто запрашиваемых полей,...
2801 просмотров
schedule 01.03.2024

Q: Преобразование Avro в Parquet в памяти
Я получаю записи Avro от Kafka. Я хочу преобразовать эти записи в файлы Parquet. Я слежу за этой записью в блоге: http://blog.cloudera.com/blog/2014/05/how-to-convert-existing-data-into-parquet/ Код пока выглядит примерно так: final String...
1713 просмотров
schedule 11.09.2022

Как лучше всего хранить входящие потоковые данные?
Что лучше выбрать для долговременного хранения (много операций записи, мало операций чтения) данных, обрабатываемых с помощью Spark Streaming: Parquet, HBase или Cassandra? Или что-то другое? Каковы компромиссы?
1514 просмотров

Python: сохранить фрейм данных pandas в файл паркета
Можно ли сохранить фрейм данных pandas непосредственно в файл паркета? Если нет, то каким будет предлагаемый процесс? Цель состоит в том, чтобы иметь возможность отправить файл паркета другой команде, которая может использовать код Scala для его...
48076 просмотров
schedule 14.07.2022