Статьи по тематике pyarrow [numpy, parquet, pyarrow, tensor, python]

Вопросы по теме 'pyarrow'

Чтение / запись тензоров пиарроу из / в паркетные файлы

Каков предлагаемый способ написания pyarrow.Tensor в pyarrow (например, созданный из numpy.ndarray ) в файл Parquet? Возможно ли это вообще без прохождения pyarrow.Table и pandas.DataFrame ?

1345 просмотров

14.05.2023

Сравнение между fastparquet и pyarrow?

После некоторых поисков мне не удалось найти подробное сравнение fastparquet и pyarrow . Я нашел этот блог post (базовое сравнение скоростей). и обсуждение на github, в котором утверждается, что файлы, созданные с помощью fastparquet ,...

25919 просмотров

python parquet pyarrow dask fastparquet

21.06.2022

Что может быть объяснением этого «pyarrow.lib.ArrowIOError»?

Я работаю над кластером HDP и пытаюсь прочитать файл .csv из HDFS с помощью pyarrow . Я могу подключиться к hdfs и распечатать информацию о файле с помощью функции info() . Но когда дело доходит до чтения содержимого файла, я получаю ошибку...

1338 просмотров

python pyarrow hdfs

22.11.2022

pyarrow read_table не имеет параметра 'parquet version'

Используя pyarrow, я могу писать паркетные файлы версии 2.0. Метод pyarrow.parquet.write_table имеет параметр версия . Но для метода pyarrow.parquet.read_table нет параметра " версия ". И похоже, что он может читать только паркетные файлы...

118 просмотров

python pandas parquet pyarrow

04.04.2022

Применение функции к столбцу в группе в фрейме данных PySpark

У меня есть такой фрейм данных PySpark, +----------+--------+---------+ |id_ | p | a | +----------+--------+---------+ | 1 | 4 | 12 | | 1 | 3 | 14 | | 1 | -7 | 16 | | 1 | 5...

1150 просмотров

python pyspark pyarrow

08.09.2023

до dask 2.2.0 параметр фильтров read_parquet, похоже, больше не работает с движком Pyarrow

когда я обновил dask с 2.1.0 до 2.2.0 (или 2.3.0), следующий код изменил свое поведение и прекратил фильтрацию паркетных файлов, как это было раньше. Это только в случае с Pyarrow Engine (движок fastparquet все еще хорошо фильтрует). Я безуспешно...

236 просмотров

parquet pyarrow dask

28.04.2022

pyarrow.parquet.write_to_dataset () очень медленно при использовании partition_cols

Я балуюсь паркетными напильниками, чтобы понять, подходят ли они для моих целей. Для этого я загружаю набор данных из файла csv и сохраняю его как набор данных паркета: import pandas as pd # version 0.25 import pyarrow as pa #...

1221 просмотров

python pyarrow

12.01.2023

PySpark 2.4.5: исключение IllegalArgumentException при использовании PandasUDF

Я пытаюсь Pandas UDF и сталкиваюсь с IllegalArgumentException. Я также пробовал воспроизвести примеры из документации PySpark GroupedData , чтобы проверить, но ошибка все равно появляется. Ниже приведена конфигурация среды. python3.7...

711 просмотров

python pandas apache-spark pyspark pyarrow

18.01.2023

Как прочитать метаданные значения ключа паркета стрелки?

Когда я сохраняю файл паркета в R и Python (используя pyarrow), я получаю строку схемы со стрелкой, сохраненную в метаданных. Как мне прочитать метаданные? Это данные в кодировке Flatbuffer? Где определение схемы? Его нет на сайте документации...

412 просмотров

parquet pyarrow apache-arrow

16.06.2022

Можно ли читать паркетные файлы из точки доступа S3 с помощью pyarrow

Можно читать файлы паркета из S3, как показано здесь или здесь . Я работаю с точками доступа S3 . Имея точку доступа S3 ARN можно ли с нее читать паркетные файлы? Я пытаюсь использовать следующий пример кода: import s3fs import...

396 просмотров

python-3.x amazon-web-services boto3 pyarrow amazon-s3-access-points

05.11.2023

pyarrow добавить столбец в таблицу pyarrow

У меня есть имя таблицы pyarrow final_table формы 6132,7. Я хочу добавить столбец в эту таблицу. list_ = ['IT'] * 6132 final_table.append_column('COUNTRY_ID', list_) но я получаю следующую ошибку ArrowInvalid: длина добавленного столбца...

847 просмотров

python pyarrow

02.08.2023

PyArrow: постепенное использование ParquetWriter без сохранения всего набора данных в памяти (больше, чем файлы паркетов в памяти)

Пытаюсь записать на диск большой паркетный файл (больше памяти). Я наивно думал, что могу быть умным и использовать ParquetWriter и write_table для инкрементальной записи файла, например этого (POC): import pyarrow as pa import pyarrow.parquet as...

252 просмотров

python parquet pyarrow apache-arrow

07.04.2022

Насмешка над датой и временем приводит к ошибке в pyarrow

Для тестирования я хочу издеваться над datetime.datetime.now() , например здесь . Функция, которую я тестирую, читает таблицу через pyarrow: import pytest import pyarrow.parquet as pq import datetime mockdate = datetime.datetime(2000, 1, 1, 0,...

25 просмотров

python pyarrow datetime

28.02.2023

игнорировать столбцы, отсутствующие в паркете, с пиарроу в пандах

Пытаюсь прочитать паркет с pyarrow==1.0.1 в качестве двигателя. Данный : columns = ['a','b','c'] pd.read_parquet(x, columns=columns, engine="pyarrow") если файл x не содержит c , он выдаст:...

312 просмотров

python parquet pyarrow

26.10.2022

Типы данных pandas изменились при чтении из паркетного файла?

Я новичок в пандах и типе файлов паркета. У меня есть скрипт на Python, который: читает в паркетном файле hdfs преобразует его в фреймворк pandas перебирает определенные столбцы и изменяет некоторые значения записывает фрейм данных обратно...

1065 просмотров

python-3.x pandas parquet pyarrow dataframe

17.05.2022

Ошибка Python с использованием pyarrow - ArrowNotImplementedError: поддержка кодека 'snappy' не построена

Использование Python, Parquet и Spark и запуск ArrowNotImplementedError: Support for codec 'snappy' not built после обновления до pyarrow=3.0.0 . Моя предыдущая версия без этой ошибки была pyarrow=0.17 . Ошибка не появляется в pyarrow=1.0.1...

2846 просмотров

parquet pyarrow apache-arrow

24.09.2022

Могу ли я получить доступ к файлу Parquet через индекс, не считывая весь файл в память?

Я только что прочитал, что HDF5 позволяет вам получить доступ к данным без чтения всего файла в память. Возможно ли такое поведение при поиске в файлах Parquet без Java (решения, отличные от pyspark)? Я использую Parquet из-за сильной поддержки...

265 просмотров

parquet pyarrow fastparquet

22.07.2023

чтение секционированных наборов данных, хранящихся как csv, с помощью pyarrow.dataset

Есть ли способ в pyarrow, как читать в секционированном наборе данных, состоящем из файлов csv, у которых нет имен столбцов, хранящихся в первой строке? То, что я пытаюсь сделать, по сути: from pyarrow import dataset as ds from pyarrow import fs...

48 просмотров

csv pyarrow apache-arrow data-partitioning

14.07.2023

Повторить pyarrow._flight.FlightStreamReader

Как мне перебрать reader , предполагая, что это объект pyarrow._flight.FlightStreamReader . Который можно получить от reader = client.do_get(flight_info.endpoints[0].ticket, options) Весь скрипт example.py взят с...

75 просмотров

python pyarrow dremio

30.06.2023

Вопросы по теме 'pyarrow'

Похожие вопросы