Распределенный Tensorflow: хосты ps/workers на aws?

Я использую распределенный Tensorflow на aws с использованием gpus. Когда я обучаю модель на своем локальном компьютере, я указываю ps_host/workers_host как что-то вроде «localhost:2225». Какой хост ps/workers мне нужно использовать в случае aws?


person M_T_JABER    schedule 14.12.2017    source источник


Ответы (2)


вот хороший проект github, показывающий, как использовать Distributed TensorFlow на AWS с Kubernetes или новым AWS SageMaker: https://github.com/pipelineai/pipeline

как минимум, вы должны использовать API TensorFlow Estimator. есть много скрытых, не очень хорошо задокументированных трюков с Distributed TensorFlow.

некоторые из лучших примеров находятся здесь: https://github.com/GoogleCloudPlatform/cloudml-samples/tree/master/census

person Chris Fregly    schedule 16.12.2017

Когда в кластере запускается распределенный код TF, доступ к другим узлам можно получить через «private ip: port number».

Но проблема с AWS заключается в том, что другие узлы не могут быть легко запущены и требуют дополнительной настройки.

person Kevin    schedule 19.02.2019