Вопросы по теме 'pyarrow'

Чтение / запись тензоров пиарроу из / в паркетные файлы
Каков предлагаемый способ написания pyarrow.Tensor в pyarrow (например, созданный из numpy.ndarray ) в файл Parquet? Возможно ли это вообще без прохождения pyarrow.Table и pandas.DataFrame ?
1345 просмотров
schedule 14.05.2023

Сравнение между fastparquet и pyarrow?
После некоторых поисков мне не удалось найти подробное сравнение fastparquet и pyarrow . Я нашел этот блог post (базовое сравнение скоростей). и обсуждение на github, в котором утверждается, что файлы, созданные с помощью fastparquet ,...
25919 просмотров
schedule 21.06.2022

Что может быть объяснением этого «pyarrow.lib.ArrowIOError»?
Я работаю над кластером HDP и пытаюсь прочитать файл .csv из HDFS с помощью pyarrow . Я могу подключиться к hdfs и распечатать информацию о файле с помощью функции info() . Но когда дело доходит до чтения содержимого файла, я получаю ошибку...
1338 просмотров
schedule 22.11.2022

pyarrow read_table не имеет параметра 'parquet version'
Используя pyarrow, я могу писать паркетные файлы версии 2.0. Метод pyarrow.parquet.write_table имеет параметр версия . Но для метода pyarrow.parquet.read_table нет параметра " версия ". И похоже, что он может читать только паркетные файлы...
118 просмотров
schedule 04.04.2022

Применение функции к столбцу в группе в фрейме данных PySpark
У меня есть такой фрейм данных PySpark, +----------+--------+---------+ |id_ | p | a | +----------+--------+---------+ | 1 | 4 | 12 | | 1 | 3 | 14 | | 1 | -7 | 16 | | 1 | 5...
1150 просмотров
schedule 08.09.2023

до dask 2.2.0 параметр фильтров read_parquet, похоже, больше не работает с движком Pyarrow
когда я обновил dask с 2.1.0 до 2.2.0 (или 2.3.0), следующий код изменил свое поведение и прекратил фильтрацию паркетных файлов, как это было раньше. Это только в случае с Pyarrow Engine (движок fastparquet все еще хорошо фильтрует). Я безуспешно...
236 просмотров
schedule 28.04.2022

pyarrow.parquet.write_to_dataset () очень медленно при использовании partition_cols
Я балуюсь паркетными напильниками, чтобы понять, подходят ли они для моих целей. Для этого я загружаю набор данных из файла csv и сохраняю его как набор данных паркета: import pandas as pd # version 0.25 import pyarrow as pa #...
1221 просмотров
schedule 12.01.2023

PySpark 2.4.5: исключение IllegalArgumentException при использовании PandasUDF
Я пытаюсь Pandas UDF и сталкиваюсь с IllegalArgumentException. Я также пробовал воспроизвести примеры из документации PySpark GroupedData , чтобы проверить, но ошибка все равно появляется. Ниже приведена конфигурация среды. python3.7...
711 просмотров
schedule 18.01.2023

Как прочитать метаданные значения ключа паркета стрелки?
Когда я сохраняю файл паркета в R и Python (используя pyarrow), я получаю строку схемы со стрелкой, сохраненную в метаданных. Как мне прочитать метаданные? Это данные в кодировке Flatbuffer? Где определение схемы? Его нет на сайте документации...
412 просмотров
schedule 16.06.2022

Можно ли читать паркетные файлы из точки доступа S3 с помощью pyarrow
Можно читать файлы паркета из S3, как показано здесь или здесь . Я работаю с точками доступа S3 . Имея точку доступа S3 ARN можно ли с нее читать паркетные файлы? Я пытаюсь использовать следующий пример кода: import s3fs import...
396 просмотров

pyarrow добавить столбец в таблицу pyarrow
У меня есть имя таблицы pyarrow final_table формы 6132,7. Я хочу добавить столбец в эту таблицу. list_ = ['IT'] * 6132 final_table.append_column('COUNTRY_ID', list_) но я получаю следующую ошибку ArrowInvalid: длина добавленного столбца...
847 просмотров
schedule 02.08.2023

PyArrow: постепенное использование ParquetWriter без сохранения всего набора данных в памяти (больше, чем файлы паркетов в памяти)
Пытаюсь записать на диск большой паркетный файл (больше памяти). Я наивно думал, что могу быть умным и использовать ParquetWriter и write_table для инкрементальной записи файла, например этого (POC): import pyarrow as pa import pyarrow.parquet as...
252 просмотров
schedule 07.04.2022

Насмешка над датой и временем приводит к ошибке в pyarrow
Для тестирования я хочу издеваться над datetime.datetime.now() , например здесь . Функция, которую я тестирую, читает таблицу через pyarrow: import pytest import pyarrow.parquet as pq import datetime mockdate = datetime.datetime(2000, 1, 1, 0,...
25 просмотров
schedule 28.02.2023

игнорировать столбцы, отсутствующие в паркете, с пиарроу в пандах
Пытаюсь прочитать паркет с pyarrow==1.0.1 в качестве двигателя. Данный : columns = ['a','b','c'] pd.read_parquet(x, columns=columns, engine="pyarrow") если файл x не содержит c , он выдаст:...
312 просмотров
schedule 26.10.2022

Типы данных pandas изменились при чтении из паркетного файла?
Я новичок в пандах и типе файлов паркета. У меня есть скрипт на Python, который: читает в паркетном файле hdfs преобразует его в фреймворк pandas перебирает определенные столбцы и изменяет некоторые значения записывает фрейм данных обратно...
1065 просмотров
schedule 17.05.2022

Ошибка Python с использованием pyarrow - ArrowNotImplementedError: поддержка кодека 'snappy' не построена
Использование Python, Parquet и Spark и запуск ArrowNotImplementedError: Support for codec 'snappy' not built после обновления до pyarrow=3.0.0 . Моя предыдущая версия без этой ошибки была pyarrow=0.17 . Ошибка не появляется в pyarrow=1.0.1...
2846 просмотров
schedule 24.09.2022

Могу ли я получить доступ к файлу Parquet через индекс, не считывая весь файл в память?
Я только что прочитал, что HDF5 позволяет вам получить доступ к данным без чтения всего файла в память. Возможно ли такое поведение при поиске в файлах Parquet без Java (решения, отличные от pyspark)? Я использую Parquet из-за сильной поддержки...
265 просмотров
schedule 22.07.2023

чтение секционированных наборов данных, хранящихся как csv, с помощью pyarrow.dataset
Есть ли способ в pyarrow, как читать в секционированном наборе данных, состоящем из файлов csv, у которых нет имен столбцов, хранящихся в первой строке? То, что я пытаюсь сделать, по сути: from pyarrow import dataset as ds from pyarrow import fs...
48 просмотров

Повторить pyarrow._flight.FlightStreamReader
Как мне перебрать reader , предполагая, что это объект pyarrow._flight.FlightStreamReader . Который можно получить от reader = client.do_get(flight_info.endpoints[0].ticket, options) Весь скрипт example.py взят с...
75 просмотров
schedule 30.06.2023