pyarrow read_table не имеет параметра 'parquet version'

Используя pyarrow, я могу писать паркетные файлы версии 2.0.

Метод pyarrow.parquet.write_table имеет параметр версия. Но для метода pyarrow.parquet.read_table нет параметра "версия". И похоже, что он может читать только паркетные файлы версии 1.0.

Как читать паркетные файлы версии 2.0 с помощью pyarrow?


person gs_vlad    schedule 26.07.2019    source источник


Ответы (1)


pyarrow.parquet.read_table может автоматически читать файлы, написанные для Parquet версии 2.0. Нет необходимости устанавливать параметр, это можно обнаружить, прочитав метаданные данного файла Parquet.

В вашем конкретном случае трудно дать вам точный ответ о том, почему кажется, что чтение не работает, поскольку вы не включили никаких трассировок в свой вопрос.

person Uwe L. Korn    schedule 26.07.2019
comment
Обратите внимание, что файлы версии 2.0, которые мы пишем, на самом деле повреждены, потому что мы неправильно записываем формат DataPageV2. См. issues.apache.org/jira/browse/PARQUET-458. - person Wes McKinney; 26.07.2019
comment
Мы также пока не можем читать файлы V2, написанные правильными реализациями Parquet по той же причине. - person Wes McKinney; 26.07.2019