Вопросы по теме 'pyarrow'
Чтение / запись тензоров пиарроу из / в паркетные файлы
Каков предлагаемый способ написания pyarrow.Tensor в pyarrow (например, созданный из numpy.ndarray ) в файл Parquet? Возможно ли это вообще без прохождения pyarrow.Table и pandas.DataFrame ?
1345 просмотров
schedule
14.05.2023
Сравнение между fastparquet и pyarrow?
После некоторых поисков мне не удалось найти подробное сравнение fastparquet и pyarrow .
Я нашел этот блог post (базовое сравнение скоростей).
и обсуждение на github, в котором утверждается, что файлы, созданные с помощью fastparquet ,...
25919 просмотров
schedule
21.06.2022
Что может быть объяснением этого «pyarrow.lib.ArrowIOError»?
Я работаю над кластером HDP и пытаюсь прочитать файл .csv из HDFS с помощью pyarrow . Я могу подключиться к hdfs и распечатать информацию о файле с помощью функции info() . Но когда дело доходит до чтения содержимого файла, я получаю ошибку...
1338 просмотров
schedule
22.11.2022
pyarrow read_table не имеет параметра 'parquet version'
Используя pyarrow, я могу писать паркетные файлы версии 2.0.
Метод pyarrow.parquet.write_table имеет параметр версия . Но для метода pyarrow.parquet.read_table нет параметра " версия ". И похоже, что он может читать только паркетные файлы...
118 просмотров
schedule
04.04.2022
Применение функции к столбцу в группе в фрейме данных PySpark
У меня есть такой фрейм данных PySpark,
+----------+--------+---------+
|id_ | p | a |
+----------+--------+---------+
| 1 | 4 | 12 |
| 1 | 3 | 14 |
| 1 | -7 | 16 |
| 1 | 5...
1150 просмотров
schedule
08.09.2023
до dask 2.2.0 параметр фильтров read_parquet, похоже, больше не работает с движком Pyarrow
когда я обновил dask с 2.1.0 до 2.2.0 (или 2.3.0), следующий код изменил свое поведение и прекратил фильтрацию паркетных файлов, как это было раньше. Это только в случае с Pyarrow Engine (движок fastparquet все еще хорошо фильтрует).
Я безуспешно...
236 просмотров
schedule
28.04.2022
pyarrow.parquet.write_to_dataset () очень медленно при использовании partition_cols
Я балуюсь паркетными напильниками, чтобы понять, подходят ли они для моих целей. Для этого я загружаю набор данных из файла csv и сохраняю его как набор данных паркета:
import pandas as pd # version 0.25
import pyarrow as pa #...
1221 просмотров
schedule
12.01.2023
PySpark 2.4.5: исключение IllegalArgumentException при использовании PandasUDF
Я пытаюсь Pandas UDF и сталкиваюсь с IllegalArgumentException. Я также пробовал воспроизвести примеры из документации PySpark GroupedData , чтобы проверить, но ошибка все равно появляется.
Ниже приведена конфигурация среды.
python3.7...
711 просмотров
schedule
18.01.2023
Как прочитать метаданные значения ключа паркета стрелки?
Когда я сохраняю файл паркета в R и Python (используя pyarrow), я получаю строку схемы со стрелкой, сохраненную в метаданных.
Как мне прочитать метаданные? Это данные в кодировке Flatbuffer? Где определение схемы? Его нет на сайте документации...
412 просмотров
schedule
16.06.2022
Можно ли читать паркетные файлы из точки доступа S3 с помощью pyarrow
Можно читать файлы паркета из S3, как показано здесь или здесь .
Я работаю с точками доступа S3 . Имея точку доступа S3 ARN можно ли с нее читать паркетные файлы?
Я пытаюсь использовать следующий пример кода:
import s3fs
import...
396 просмотров
schedule
05.11.2023
pyarrow добавить столбец в таблицу pyarrow
У меня есть имя таблицы pyarrow final_table формы 6132,7. Я хочу добавить столбец в эту таблицу.
list_ = ['IT'] * 6132
final_table.append_column('COUNTRY_ID', list_)
но я получаю следующую ошибку ArrowInvalid: длина добавленного столбца...
847 просмотров
schedule
02.08.2023
PyArrow: постепенное использование ParquetWriter без сохранения всего набора данных в памяти (больше, чем файлы паркетов в памяти)
Пытаюсь записать на диск большой паркетный файл (больше памяти). Я наивно думал, что могу быть умным и использовать ParquetWriter и write_table для инкрементальной записи файла, например этого (POC):
import pyarrow as pa
import pyarrow.parquet as...
252 просмотров
schedule
07.04.2022
Насмешка над датой и временем приводит к ошибке в pyarrow
Для тестирования я хочу издеваться над datetime.datetime.now() , например здесь .
Функция, которую я тестирую, читает таблицу через pyarrow:
import pytest
import pyarrow.parquet as pq
import datetime
mockdate = datetime.datetime(2000, 1, 1, 0,...
25 просмотров
schedule
28.02.2023
игнорировать столбцы, отсутствующие в паркете, с пиарроу в пандах
Пытаюсь прочитать паркет с pyarrow==1.0.1 в качестве двигателя.
Данный :
columns = ['a','b','c']
pd.read_parquet(x, columns=columns, engine="pyarrow")
если файл x не содержит c , он выдаст:...
312 просмотров
schedule
26.10.2022
Типы данных pandas изменились при чтении из паркетного файла?
Я новичок в пандах и типе файлов паркета. У меня есть скрипт на Python, который:
читает в паркетном файле hdfs
преобразует его в фреймворк pandas
перебирает определенные столбцы и изменяет некоторые значения
записывает фрейм данных обратно...
1065 просмотров
schedule
17.05.2022
Ошибка Python с использованием pyarrow - ArrowNotImplementedError: поддержка кодека 'snappy' не построена
Использование Python, Parquet и Spark и запуск ArrowNotImplementedError: Support for codec 'snappy' not built после обновления до pyarrow=3.0.0 . Моя предыдущая версия без этой ошибки была pyarrow=0.17 . Ошибка не появляется в pyarrow=1.0.1...
2846 просмотров
schedule
24.09.2022
Могу ли я получить доступ к файлу Parquet через индекс, не считывая весь файл в память?
Я только что прочитал, что HDF5 позволяет вам получить доступ к данным без чтения всего файла в память.
Возможно ли такое поведение при поиске в файлах Parquet без Java (решения, отличные от pyspark)? Я использую Parquet из-за сильной поддержки...
265 просмотров
schedule
22.07.2023
чтение секционированных наборов данных, хранящихся как csv, с помощью pyarrow.dataset
Есть ли способ в pyarrow, как читать в секционированном наборе данных, состоящем из файлов csv, у которых нет имен столбцов, хранящихся в первой строке?
То, что я пытаюсь сделать, по сути:
from pyarrow import dataset as ds
from pyarrow import fs...
48 просмотров
schedule
14.07.2023
Повторить pyarrow._flight.FlightStreamReader
Как мне перебрать reader , предполагая, что это объект pyarrow._flight.FlightStreamReader . Который можно получить от
reader = client.do_get(flight_info.endpoints[0].ticket, options)
Весь скрипт example.py взят с...
75 просмотров
schedule
30.06.2023