когда я обновил dask с 2.1.0 до 2.2.0 (или 2.3.0), следующий код изменил свое поведение и прекратил фильтрацию паркетных файлов, как это было раньше. Это только в случае с Pyarrow Engine (движок fastparquet все еще хорошо фильтрует).
Я безуспешно пробовал pyarrow 0.13.1, 0.14.0 и 0.14.1 на Dask 2.2.0 и 2.3.0.
Моя предыдущая рабочая настройка: Dask 2.1.0 с Pyarrow 0.14.1
Этот код работал для движка Pyarrow
import dask.dataframe as dd
dd.read_parquet(directory, engine='pyarrow', filters=[(('DatePart', '>=', '2018-01-14'))])
Следует отметить, что эквивалентный код для движка fastparquet должен удалить один уровень списка -> он все еще работает с fastparquet
import dask.dataframe as dd
dd.read_parquet(directory, engine='fastparquet', filters=[('DatePart', '>=', '2018-01-14')])
Мое хранилище паркета разделено DatePart с существующими файлами _metadata.
Теперь результирующий фрейм данных больше не фильтруется с помощью движка pyarrow. Без сообщений об ошибках.