Использование образа dataproc версии 2.0.x в облаке Google, поскольку в этой версии образа dataproc доступна дельта 0.7.0. Однако этот экземпляр dataproc поставляется с pyspark 3.1.1 по умолчанию, Apache Spark 3.1.1 еще официально не выпущен. Таким образом, версии Delta Lake, совместимой с 3.1, нет, поэтому предлагается перейти на более раннюю версию.
Я пробовал следующее,
pip install --force-reinstall pyspark==3.0.1
выполнил указанную выше команду как пользователь root на главном узле экземпляра dataproc, однако, когда я проверяю pyspark --version
, он все еще показывает 3.1.1
как исправить версию pyspark по умолчанию до 3.0.1?