Вопросы по теме 'apache-arrow'

Доступ к результату фильтра Gadiva по индексу в Apache Arrow
Может быть, мне не хватает чего-то очевидного, но, хоть убей, я не могу понять, как я могу получить доступ к элементам массива после операции фильтра Gandiva. Я связал минимальный пример, который я компилирую следующим образом: $...
202 просмотров
schedule 24.03.2022

Сбой Sparklyr R со стрелкой apache, неожиданное завершение: объект as_tibble не найден
Я пытаюсь использовать sparklyr с стрелкой , чтобы повысить производительность видно, например, здесь , но работает в ошибки. Вот (надеюсь) воспроизводимый пример: # Prepare session and data library(sparklyr) library(dplyr) config <-...
114 просмотров
schedule 16.10.2022

Как прочитать метаданные значения ключа паркета стрелки?
Когда я сохраняю файл паркета в R и Python (используя pyarrow), я получаю строку схемы со стрелкой, сохраненную в метаданных. Как мне прочитать метаданные? Это данные в кодировке Flatbuffer? Где определение схемы? Его нет на сайте документации...
412 просмотров
schedule 16.06.2022

высокое потребление памяти при преобразовании стрелки в фрейм данных в R
Я пытаюсь читать файлы паркета в R, используя read_parquet и open_dataset. Ни один из них не очень эффективен. У меня 100 паркетных перегородок по 160МБ каждая. Общий набор данных составляет более 1 миллиарда строк и имеет около 15 столбцов (5...
88 просмотров
schedule 16.06.2022

PyArrow: постепенное использование ParquetWriter без сохранения всего набора данных в памяти (больше, чем файлы паркетов в памяти)
Пытаюсь записать на диск большой паркетный файл (больше памяти). Я наивно думал, что могу быть умным и использовать ParquetWriter и write_table для инкрементальной записи файла, например этого (POC): import pyarrow as pa import pyarrow.parquet as...
252 просмотров
schedule 07.04.2022

Ошибка Python с использованием pyarrow - ArrowNotImplementedError: поддержка кодека 'snappy' не построена
Использование Python, Parquet и Spark и запуск ArrowNotImplementedError: Support for codec 'snappy' not built после обновления до pyarrow=3.0.0 . Моя предыдущая версия без этой ошибки была pyarrow=0.17 . Ошибка не появляется в pyarrow=1.0.1...
2846 просмотров
schedule 24.09.2022

чтение секционированных наборов данных, хранящихся как csv, с помощью pyarrow.dataset
Есть ли способ в pyarrow, как читать в секционированном наборе данных, состоящем из файлов csv, у которых нет имен столбцов, хранящихся в первой строке? То, что я пытаюсь сделать, по сути: from pyarrow import dataset as ds from pyarrow import fs...
48 просмотров

MethodError при попытке получить строку из фрейма данных Arrow в Julia
У меня есть набор данных, который выглядит следующим образом: Я беру CSV-файл, конвертирую его в Parquet, а затем отправляю в Arrow. Есть причина, по которой я так делаю. Моя цель - получить доступ к информации в строке "Algeria" ....
47 просмотров
schedule 12.01.2024

Чтение CSV из std :: vector ‹unsigned char› с помощью Apache Arrow
Я пытаюсь прочитать входной формат csv с помощью стрелки Apache. В примере здесь упоминается, что ввод должен быть InputStream , однако в моем случае у меня просто std :: vector беззнаковых символов. Можно ли разобрать это с помощью стрелки...
46 просмотров
schedule 31.08.2022

Недопустимый управляющий сигнал для стрелочного паркета. Как собрать с Conan без AVX2
Я использую conan для создания библиотеки, использующей стрелочный паркет. Я построил стрелу сам, потому что не смог найти версии в conan center, включающие паркет: В моем conanfile.txt [options] arrow:shared=True # I tried both shared and...
35 просмотров
schedule 05.02.2023