Статьи по тематике parquet [amazon-s3, parquet, apache-spark, hadoop, apache-spark-sql]

Вопросы по теме 'parquet'

Spark SQL не может завершить запись данных Parquet с большим количеством сегментов

Я пытаюсь использовать Apache Spark SQL для переноса данных журнала json в S3 в файлы Parquet также на S3. Мой код в основном: import org.apache.spark._ val sqlContext = sql.SQLContext(sc) val data = sqlContext.jsonFile("s3n://...", 10e-6)...

3179 просмотров

29.03.2022

Ошибка при записи перераспределенного SchemaRDD в Parquet с помощью Spark SQL

Я пытаюсь записать таблицы Spark SQL для сохранения в файлы Parquet. Из-за другого проблемы Мне нужно уменьшить количество разделов перед записью. Мой код data.coalesce(1000,shuffle=true).saveAsParquetFile("s3n://...") Это бросает...

868 просмотров

parquet apache-spark apache-spark-sql

02.06.2022

Сохранение ›› 25T SchemaRDD в формате Parquet на S3

Я столкнулся с рядом проблем при попытке сохранить очень большой SchemaRDD, как в формате Parquet на S3. Я уже задавал конкретные вопросы по этим проблемам, но это то, что мне действительно нужно сделать. Код должен выглядеть примерно так import...

2235 просмотров

amazon-s3 parquet apache-spark apache-spark-sql

26.02.2022

Impala - преобразовать существующую таблицу в формат паркета

У меня есть таблица с разделами, и я использую файлы avro или текстовые файлы для создания и вставки в таблицу. Как только стол будет готов, есть ли способ превратить его в паркет? Я имею в виду, что я знаю, что мы могли бы сказать CREATE TABLE...

9717 просмотров

parquet text-files avro impala

05.07.2023

Разделение файла паркета

HI Я запускаю задания для свиней для обработки данных и сохранения результата в виде файла паркета. Теперь мне нужно разбить этот файл паркета на основе любого из присутствующих столбцов. Есть ли способ добиться этого?

497 просмотров

parquet apache-pig

19.09.2023

Можно ли использовать файлы Parquet и текстовые файлы (csv) в качестве входных данных для одного и того же задания M/R?

Я пытался исследовать это, но не нашел полезной информации. У меня есть задание M/R, уже читающее с паркета (не секционированное, с использованием схемы бережливости). Мне нужно добавить в процесс еще один набор входных файлов, которые не в формате...

176 просмотров

parquet mapreduce thrift

20.03.2022

Spark SQL - разница между форматами сжатия gzip, snappy и lzo

Я пытаюсь использовать Spark SQL для записи файла parquet . По умолчанию Spark SQL поддерживает gzip , но также поддерживает и другие форматы сжатия, такие как snappy и lzo . В чем разница между этими форматами сжатия?

32644 просмотров

parquet apache-spark gzip snappy lzo

12.04.2023

Невозможно работать с данными Parquet, имеющими столбцы с косой чертой в Spark SQL

У меня есть файл паркета, я могу загрузить файл паркета в Spark SQL. Но в файлах Parquet есть много столбцов с косой чертой, что вызывает проблему, когда я пытаюсь получить данные из таблицы, используя эти столбцы. например имена столбцов:...

996 просмотров

parquet dataframe apache-spark-sql scala

06.07.2022

Загрузить файл вложенного паркета в Pig?

Файл паркета создается из файла Avro. Теперь мне нужно загрузить файл Parquet в Pig. Ниже приведена схема, которую я получил от команды parquet-tools schema . message Logs { optional group SUPER1 { optional group FIELD1 (LIST) {...

521 просмотров

parquet apache-pig

14.01.2024

Как получить доступ к вложенным атрибутам в Spark sql

Я пытаюсь получить доступ к вложенным атрибутам файла json, хранящегося в таблице (паркете). Я могу получить доступ ко всем записям таблицы, выбрав * из теста; Однако я не могу получить доступ к вложенным атрибутам, написав запрос как: val tab =...

1117 просмотров

json parquet apache-spark apache-spark-sql

21.06.2023

Использование Spark для записи паркетного файла в s3 поверх s3a очень медленно

Я пытаюсь записать parquet файл в Amazon S3 с помощью Spark 1.6.1 . Небольшой parquet , который я генерирую, ~2GB однажды записан, так что данных не так уж и много. Я пытаюсь доказать Spark как платформу, которую я могу использовать. В...

20419 просмотров

amazon-s3 parquet apache-spark apache-spark-sql scala

29.05.2022

Spark SQL игнорирует свойство сжатия parquet.com, указанное в TBLPROPERTIES

Мне нужно создать таблицу Hive из Spark SQL, которая будет в формате PARQUET и сжатии SNAPPY. Следующий код создает таблицу в формате PARQUET, но со сжатием GZIP: hiveContext.sql("create table NEW_TABLE stored as parquet tblproperties...

2964 просмотров

parquet apache-spark-sql hiveql

12.04.2022

Как переместить таблицы HBase в HDFS в формате Parquet?

Мне нужно создать инструмент, который будет обрабатывать наше хранилище данных из HBase (HFiles) в HDFS в формате паркета. Пожалуйста, предложите один из лучших способов перемещения данных из таблиц HBase в таблицы Parquet. Нам нужно перенести...

4051 просмотров

parquet hadoop hbase hfile

16.02.2023

Cloudera 5.6: Паркет не поддерживает дату. См. HIVE-6384

В настоящее время я использую Cloudera 5.6, пытаясь создать таблицу формата паркета в таблице кустов на основе другой таблицы, но сталкиваюсь с ошибкой. create table sfdc_opportunities_sandbox_parquet like sfdc_opportunities_sandbox STORED AS...

15894 просмотров

parquet hive cloudera

30.03.2023

Каков размер блока по умолчанию для корзины s3?

Пишу паркетный файл в s3. Я должен знать размер блока s3, чтобы я мог соответственно установить размер группы строк. как 1 размер группы строк = размер блока s3 по умолчанию. (размер группы строк по умолчанию в паркете составляет 128 МБ. Но если...

3553 просмотров

amazon-web-services amazon-ec2 amazon-s3 parquet

01.04.2023

Avro: преобразовать схему UNION в схему RECORD

У меня есть автоматически сгенерированная схема Avro для простой иерархии классов: trait T {def name: String} case class A(name: String, value: Int) extends T case class B(name: String, history: Array[String]) extends T Выглядит это так:...

2602 просмотров

parquet apache-spark scala avro

11.04.2022

Почему файлы Spark Parquet для агрегата больше оригинала?

Я пытаюсь создать сводный файл для использования конечными пользователями, чтобы они не обрабатывали несколько источников с файлами гораздо большего размера. Для этого я: A) перебираю все исходные папки, удаляя 12 наиболее часто запрашиваемых полей,...

2801 просмотров

parquet storage apache-spark aggregation

01.03.2024

Q: Преобразование Avro в Parquet в памяти

Я получаю записи Avro от Kafka. Я хочу преобразовать эти записи в файлы Parquet. Я слежу за этой записью в блоге: http://blog.cloudera.com/blog/2014/05/how-to-convert-existing-data-into-parquet/ Код пока выглядит примерно так: final String...

1713 просмотров

java parquet hadoop avro

11.09.2022

Как лучше всего хранить входящие потоковые данные?

Что лучше выбрать для долговременного хранения (много операций записи, мало операций чтения) данных, обрабатываемых с помощью Spark Streaming: Parquet, HBase или Cassandra? Или что-то другое? Каковы компромиссы?

1514 просмотров

cassandra parquet apache-spark spark-streaming hbase

07.07.2023

Python: сохранить фрейм данных pandas в файл паркета

Можно ли сохранить фрейм данных pandas непосредственно в файл паркета? Если нет, то каким будет предлагаемый процесс? Цель состоит в том, чтобы иметь возможность отправить файл паркета другой команде, которая может использовать код Scala для его...

48076 просмотров

python-3.x parquet hdfs

14.07.2022

Вопросы по теме 'parquet'

Похожие вопросы