Проблема с запуском Dask на AWS Sagemaker и AWS Fargate

Я пытаюсь настроить кластер на AWS для запуска обучения распределенной модели sklearn с помощью dask. Для начала я пытался следовать этому руководству, которое я надеюсь настроить: https://towardsdatascience.com/serverless-distributed-data-pre-processing-using-dask-amazon-ecs-and-python-part-1-a6108c728cc4

Мне удалось отправить контейнер докеров в AWS ECR, а затем запустить шаблон CloudFormation для создания кластера на AWS Fargate. Следующим шагом в руководстве является запуск блокнота AWS Sagemaker. Я пробовал это, но что-то не работает, потому что, когда я запускаю команды, я получаю ошибки (см. Изображение). В чем может быть проблема? Может ли это быть связано с VPC / подсетями? Связано ли это с доступом к Интернету AWS Sagemaker? (я пробовал включать и отключать это).

введите здесь описание изображения

Ожидаемые результаты: запрос на обновление, масштабирование кластера Fargate для работы.

Фактические результаты: ничего из вышеперечисленного.


person Graham Hesketh    schedule 02.07.2019    source источник


Ответы (1)


В моем случае при прохождении того же учебного курса DaskSchedulerService занимает слишком много времени для завершения. Создание было начато, но так и не было завершено в CloudFormation. Через 5-6 часов у меня следующее:

DaskSchedulerService CREATE_FAILED Dask-Scheduler не стабилизировался.

Рабочие не запускались, и, следовательно, не было возможности подключиться к Клиенту.

person Kseniia Palin    schedule 21.08.2019
comment
Затем я обратился к этому руководству, чтобы запустить Dask в Fargate, что в некоторой степени было успешным. gist.github.com/jacobtomlinson/ee5ba79228e42bcc99375faf0179c - person Kseniia Palin; 21.08.2019