Tensorflow и беговое распределенное обучение с крутящим моментом

Я написал нейронную сеть в соответствии с руководством по тензорному потоку по распределенному обучению: https://www.tensorflow.org/deploy/distributed

Если кластер, на котором я хотел бы провести обучение, использует крутящий момент для планирования и распределения заданий, как это согласуется с тензорным потоком и как он распределяет обучение по кластеру?

Должен ли я установить тренировку на одном узле по крутящему моменту и позволить тензорному потоку распределять его оттуда, или это будет конфликтовать с функционированием крутящего момента. Нужен ли вообще крутящий момент, если tensorflow может обрабатывать распределения? Как мне избежать столкновений между ними?

Заранее спасибо.

tensorflow torque

Devon Jarvis 02.10.2017 источник

Ответы (1)

arrow_upward
0
arrow_downward

Крутящий момент и распределенный тензорный поток отвечают за разные задачи, напрямую не связанные друг с другом. Torque предназначен для распределения ресурсов кластера по нескольким заданиям. В рамках одного задания будут доступны только требуемые ресурсы. Распределенный тензорный поток предназначен для распараллеливания задачи тензорного потока между доступными ресурсами (в рамках одного задания).

Обычно вы используете крутящий момент, чтобы получить все необходимые ресурсы для задачи тензорного потока, а затем использовать распределенный тензорный поток для распределения задачи по ресурсам, которые были предоставлены крутящим моментом.

Если tf.train.ClusterSpec инициализирован правильно с ресурсами, доступными по крутящему моменту, конфликтов не будет.

BlueSun 02.10.2017

comment

Спасибо за помощь BlueSun, ваш ответ очень помог. Однако я столкнулся с связанной проблемой. Когда я запускаю сеанс обучения тензорного потока из головного узла как одно задание, я получаю следующую ошибку: ImportError: Нет модуля с именем tensorflow, однако тензорный поток установлен на всех узлах кластера. Я попытался использовать файл задания крутящего момента, чтобы открыть оболочку тензорного потока на каждом узле, используя источник, активирующий тензорный поток в файле pbs, но это тоже не помогло. Какие возможные решения, которые могут мне помочь, могут помочь? - Devon Jarvis; 05.10.2017

comment

@DevonJarvis Причин ImportError может быть много. Вы можете попробовать прочитать ответы на вопрос: stackoverflow.com/questions/14295680/ - BlueSun; 05.10.2017

Tensorflow и беговое распределенное обучение с крутящим моментом

Ответы (1)

Похожие вопросы