до dask 2.2.0 параметр фильтров read_parquet, похоже, больше не работает с движком Pyarrow

когда я обновил dask с 2.1.0 до 2.2.0 (или 2.3.0), следующий код изменил свое поведение и прекратил фильтрацию паркетных файлов, как это было раньше. Это только в случае с Pyarrow Engine (движок fastparquet все еще хорошо фильтрует).

Я безуспешно пробовал pyarrow 0.13.1, 0.14.0 и 0.14.1 на Dask 2.2.0 и 2.3.0.

Моя предыдущая рабочая настройка: Dask 2.1.0 с Pyarrow 0.14.1

Этот код работал для движка Pyarrow

import dask.dataframe as dd
dd.read_parquet(directory, engine='pyarrow', filters=[(('DatePart', '>=', '2018-01-14'))])

Следует отметить, что эквивалентный код для движка fastparquet должен удалить один уровень списка -> он все еще работает с fastparquet

import dask.dataframe as dd
dd.read_parquet(directory, engine='fastparquet', filters=[('DatePart', '>=', '2018-01-14')])

Мое хранилище паркета разделено DatePart с существующими файлами _metadata.

Теперь результирующий фрейм данных больше не фильтруется с помощью движка pyarrow. Без сообщений об ошибках.


person denren    schedule 28.08.2019    source источник


Ответы (1)


Похоже, вы пытаетесь сообщить об ошибке. Я рекомендую сообщать об ошибках на https://github.com/dask/dask/issues/new

См. https://docs.dask.org/en/latest/support.html#asking-for-help для получения дополнительной информации о том, где разработчики Dask предпочитают видеть вопросы.

person MRocklin    schedule 29.08.2019
comment
Спасибо, я сделаю это. - person denren; 29.08.2019