Чтение / запись тензоров пиарроу из / в паркетные файлы

Каков предлагаемый способ написания pyarrow.Tensor в pyarrow (например, созданный из numpy.ndarray) в файл Parquet? Возможно ли это вообще без прохождения pyarrow.Table и pandas.DataFrame?


person Martin Studer    schedule 17.10.2017    source источник
comment
Прошло много времени. Вы нашли какой-нибудь интересный способ добиться этого, Мартин?   -  person Leo Gallucci    schedule 12.02.2019


Ответы (2)


Модель данных для Parquet является табличной, поэтому где-то тензор / ndarray должен быть преобразован в табличную форму. У нас нет встроенных удобных функций, которые помогли бы с этим, но не стесняйтесь делать запросы конкретных функций в системе отслеживания проблем https://issues.apache.org/jira/projects/ARROW

person Wes McKinney    schedule 17.10.2017

Формат Parquet оптимизирован для таблиц с вложенными данными, т.е. ожидается, что данные будут представлены в виде именованных столбцов. Это немного отличается от идеи n-мерных столбцов. Для тензоров лучше выбрать другой формат.

person Uwe L. Korn    schedule 18.10.2017