После некоторых поисков мне не удалось найти подробное сравнение fastparquet
и pyarrow
.
Я нашел этот блог post (базовое сравнение скоростей).
и обсуждение на github, в котором утверждается, что файлы, созданные с помощью fastparquet
, не поддерживают AWS. -athena (кстати, это все еще так?)
когда / почему я должен использовать один над другим? каковы основные преимущества и недостатки?
мой конкретный вариант использования — обработка данных с помощью dask
записи их в s3, а затем чтения/анализа с помощью AWS-Афина.