Использование существующего кластера dataproc для запуска dask

У меня есть кластер dataproc, работающий на облачной платформе Google. Я намерен передать этот кластер в клиенте dask вместо инициализации нового кластера dask-yarn

Однако я не могу напрямую использовать свой кластер dataproc.

#Instead of :
cluster = YarnCluster(environment='environment.tar.gz',worker_vcores=2, worker_memory="8GiB")
cluster.scale(10)
client = Client(cluster)

#Directly using my dataproc cluster:
client = Client(my-dataproc-cluster)

person Shalanki Gupta    schedule 09.06.2019    source источник


Ответы (1)


DataProc создает новый кластер Hadoop, dask-yarn предназначен для создания кластеров dask, которые работают внутри вашего кластера hadoop (где бы он ни находился). Для правильной работы требуется правильно настроить среду и конфигурацию Python, как и любой другой инструмент в hadoop (включая Spark).

У нас нет специального руководства по обработке данных, но руководство для эквивалентного EMR AWS находится здесь: http://yarn.dask.org/en/latest/aws-emr.html

Для развертывания в DataProc вы, вероятно, создадите эквивалентное действие инициализации к действию начальной загрузки EMR: https://github.com/dask/dask-yarn/blob/master/deployment_resources/aws-emr/bootstrap-dask

person jiminy_crist    schedule 17.06.2019
comment
У вас есть руководство по работе с данными в настоящее время? Хотел бы попробовать Dask вместо Spark, но с ограниченной документацией по запуску вещей мне, возможно, придется пока отказаться. - person Jas; 19.11.2020
comment
Dataproc теперь имеет действие инициализации для Dask! yarn.dask.org/en/latest/gcp-dataproc.html - person Brad Miro; 14.12.2020