Можете ли вы добавить к формату .feather?

Есть ли способ добавить файл формата .feather с помощью pd.to_feather?

Мне также любопытно, знает ли кто-нибудь о некоторых ограничениях с точки зрения максимального размера файла и возможно ли запросить некоторые конкретные данные при чтении файла .feather (например, прочитать строки, где дата > '2017-03-31 ').

Мне нравится идея хранить свои кадры данных и категориальные данные.


person trench    schedule 17.06.2017    source источник
comment
Разве hdf5 больше не подходит для этого? Насколько я знаю, перо предназначено только для быстрого переноса данных из R в Python (или наоборот). Это не означает, что на самом деле хранить данные.   -  person ayhan    schedule 17.06.2017
comment
@trench, вы нашли что-нибудь о добавлении в файл перьев?   -  person r2evans    schedule 29.10.2017
comment
Я этого не делал - последние панды также включают чтение / запись Parquet, поэтому я сейчас изучаю это. В настоящее время большая часть моих данных просто хранится в файлах csv и таблицах базы данных, но я хочу изучить некоторые из этих вариантов.   -  person trench    schedule 30.10.2017
comment
@ayhan HDF5 имеет некоторые ограничения по сравнению с пером. Например, HDF5 не поддерживает расширения dtypes.   -  person gerrit    schedule 22.01.2020


Ответы (1)


К сожалению, и перо, и паркет являются файлами, ориентированными на столбцы. Это означает, что вы не можете «добавлять», поскольку это возможно только в форматах файлов, ориентированных на строки. Если вы хотите использовать паркет или перо, вы можете рассмотреть альтернативы для разделения файлов. Например, если у вас есть данные, которые не изменяются и генерируются один раз в день, вы можете записывать и секционировать на основе даты. Это создает некоторые накладные расходы при чтении и записи файла, но может быть лучшим вариантом, чем перезапись всего файла каждый раз.

Поскольку это столбчатый формат, вы также не можете запрашивать и читать только в строках, где, например. date>2017-01-01, чем паркет отличается, так это тем, что вы можете читать только те столбцы, которые вам нужны для анализа.

person Pureluck    schedule 30.11.2018