Вопросы по теме 'parquet'
Spark SQL не может завершить запись данных Parquet с большим количеством сегментов
Я пытаюсь использовать Apache Spark SQL для переноса данных журнала json в S3 в файлы Parquet также на S3. Мой код в основном:
import org.apache.spark._
val sqlContext = sql.SQLContext(sc)
val data = sqlContext.jsonFile("s3n://...", 10e-6)...
3179 просмотров
schedule
29.03.2022
Ошибка при записи перераспределенного SchemaRDD в Parquet с помощью Spark SQL
Я пытаюсь записать таблицы Spark SQL для сохранения в файлы Parquet. Из-за другого проблемы Мне нужно уменьшить количество разделов перед записью. Мой код
data.coalesce(1000,shuffle=true).saveAsParquetFile("s3n://...")
Это бросает...
868 просмотров
schedule
02.06.2022
Сохранение ›› 25T SchemaRDD в формате Parquet на S3
Я столкнулся с рядом проблем при попытке сохранить очень большой SchemaRDD, как в формате Parquet на S3. Я уже задавал конкретные вопросы по этим проблемам, но это то, что мне действительно нужно сделать. Код должен выглядеть примерно так
import...
2235 просмотров
schedule
26.02.2022
Impala - преобразовать существующую таблицу в формат паркета
У меня есть таблица с разделами, и я использую файлы avro или текстовые файлы для создания и вставки в таблицу.
Как только стол будет готов, есть ли способ превратить его в паркет? Я имею в виду, что я знаю, что мы могли бы сказать CREATE TABLE...
9717 просмотров
schedule
05.07.2023
Разделение файла паркета
HI Я запускаю задания для свиней для обработки данных и сохранения результата в виде файла паркета. Теперь мне нужно разбить этот файл паркета на основе любого из присутствующих столбцов. Есть ли способ добиться этого?
497 просмотров
schedule
19.09.2023
Можно ли использовать файлы Parquet и текстовые файлы (csv) в качестве входных данных для одного и того же задания M/R?
Я пытался исследовать это, но не нашел полезной информации. У меня есть задание M/R, уже читающее с паркета (не секционированное, с использованием схемы бережливости). Мне нужно добавить в процесс еще один набор входных файлов, которые не в формате...
176 просмотров
schedule
20.03.2022
Spark SQL - разница между форматами сжатия gzip, snappy и lzo
Я пытаюсь использовать Spark SQL для записи файла parquet .
По умолчанию Spark SQL поддерживает gzip , но также поддерживает и другие форматы сжатия, такие как snappy и lzo .
В чем разница между этими форматами сжатия?
32644 просмотров
schedule
12.04.2023
Невозможно работать с данными Parquet, имеющими столбцы с косой чертой в Spark SQL
У меня есть файл паркета, я могу загрузить файл паркета в Spark SQL. Но в файлах Parquet есть много столбцов с косой чертой, что вызывает проблему, когда я пытаюсь получить данные из таблицы, используя эти столбцы. например имена столбцов:...
996 просмотров
schedule
06.07.2022
Загрузить файл вложенного паркета в Pig?
Файл паркета создается из файла Avro. Теперь мне нужно загрузить файл Parquet в Pig. Ниже приведена схема, которую я получил от команды parquet-tools schema .
message Logs {
optional group SUPER1 {
optional group FIELD1 (LIST) {...
521 просмотров
schedule
14.01.2024
Как получить доступ к вложенным атрибутам в Spark sql
Я пытаюсь получить доступ к вложенным атрибутам файла json, хранящегося в таблице (паркете). Я могу получить доступ ко всем записям таблицы, выбрав * из теста;
Однако я не могу получить доступ к вложенным атрибутам, написав запрос как: val tab =...
1117 просмотров
schedule
21.06.2023
Использование Spark для записи паркетного файла в s3 поверх s3a очень медленно
Я пытаюсь записать parquet файл в Amazon S3 с помощью Spark 1.6.1 . Небольшой parquet , который я генерирую, ~2GB однажды записан, так что данных не так уж и много. Я пытаюсь доказать Spark как платформу, которую я могу использовать.
В...
20419 просмотров
schedule
29.05.2022
Spark SQL игнорирует свойство сжатия parquet.com, указанное в TBLPROPERTIES
Мне нужно создать таблицу Hive из Spark SQL, которая будет в формате PARQUET и сжатии SNAPPY. Следующий код создает таблицу в формате PARQUET, но со сжатием GZIP:
hiveContext.sql("create table NEW_TABLE stored as parquet tblproperties...
2964 просмотров
schedule
12.04.2022
Как переместить таблицы HBase в HDFS в формате Parquet?
Мне нужно создать инструмент, который будет обрабатывать наше хранилище данных из HBase (HFiles) в HDFS в формате паркета.
Пожалуйста, предложите один из лучших способов перемещения данных из таблиц HBase в таблицы Parquet.
Нам нужно перенести...
4051 просмотров
schedule
16.02.2023
Cloudera 5.6: Паркет не поддерживает дату. См. HIVE-6384
В настоящее время я использую Cloudera 5.6, пытаясь создать таблицу формата паркета в таблице кустов на основе другой таблицы, но сталкиваюсь с ошибкой.
create table sfdc_opportunities_sandbox_parquet like
sfdc_opportunities_sandbox STORED AS...
15894 просмотров
schedule
30.03.2023
Каков размер блока по умолчанию для корзины s3?
Пишу паркетный файл в s3. Я должен знать размер блока s3, чтобы я мог соответственно установить размер группы строк. как 1 размер группы строк = размер блока s3 по умолчанию. (размер группы строк по умолчанию в паркете составляет 128 МБ. Но если...
3553 просмотров
schedule
01.04.2023
Avro: преобразовать схему UNION в схему RECORD
У меня есть автоматически сгенерированная схема Avro для простой иерархии классов:
trait T {def name: String}
case class A(name: String, value: Int) extends T
case class B(name: String, history: Array[String]) extends T
Выглядит это так:...
2602 просмотров
schedule
11.04.2022
Почему файлы Spark Parquet для агрегата больше оригинала?
Я пытаюсь создать сводный файл для использования конечными пользователями, чтобы они не обрабатывали несколько источников с файлами гораздо большего размера. Для этого я: A) перебираю все исходные папки, удаляя 12 наиболее часто запрашиваемых полей,...
2801 просмотров
schedule
01.03.2024
Q: Преобразование Avro в Parquet в памяти
Я получаю записи Avro от Kafka. Я хочу преобразовать эти записи в файлы Parquet. Я слежу за этой записью в блоге: http://blog.cloudera.com/blog/2014/05/how-to-convert-existing-data-into-parquet/
Код пока выглядит примерно так:
final String...
1713 просмотров
schedule
11.09.2022
Как лучше всего хранить входящие потоковые данные?
Что лучше выбрать для долговременного хранения (много операций записи, мало операций чтения) данных, обрабатываемых с помощью Spark Streaming: Parquet, HBase или Cassandra? Или что-то другое? Каковы компромиссы?
1514 просмотров
schedule
07.07.2023
Python: сохранить фрейм данных pandas в файл паркета
Можно ли сохранить фрейм данных pandas непосредственно в файл паркета? Если нет, то каким будет предлагаемый процесс?
Цель состоит в том, чтобы иметь возможность отправить файл паркета другой команде, которая может использовать код Scala для его...
48076 просмотров
schedule
14.07.2022