Tensorflow и беговое распределенное обучение с крутящим моментом

Я написал нейронную сеть в соответствии с руководством по тензорному потоку по распределенному обучению: https://www.tensorflow.org/deploy/distributed

Если кластер, на котором я хотел бы провести обучение, использует крутящий момент для планирования и распределения заданий, как это согласуется с тензорным потоком и как он распределяет обучение по кластеру?

Должен ли я установить тренировку на одном узле по крутящему моменту и позволить тензорному потоку распределять его оттуда, или это будет конфликтовать с функционированием крутящего момента. Нужен ли вообще крутящий момент, если tensorflow может обрабатывать распределения? Как мне избежать столкновений между ними?

Заранее спасибо.


person Devon Jarvis    schedule 02.10.2017    source источник


Ответы (1)


Крутящий момент и распределенный тензорный поток отвечают за разные задачи, напрямую не связанные друг с другом. Torque предназначен для распределения ресурсов кластера по нескольким заданиям. В рамках одного задания будут доступны только требуемые ресурсы. Распределенный тензорный поток предназначен для распараллеливания задачи тензорного потока между доступными ресурсами (в рамках одного задания).

Обычно вы используете крутящий момент, чтобы получить все необходимые ресурсы для задачи тензорного потока, а затем использовать распределенный тензорный поток для распределения задачи по ресурсам, которые были предоставлены крутящим моментом.

Если tf.train.ClusterSpec инициализирован правильно с ресурсами, доступными по крутящему моменту, конфликтов не будет.

person BlueSun    schedule 02.10.2017
comment
Спасибо за помощь BlueSun, ваш ответ очень помог. Однако я столкнулся с связанной проблемой. Когда я запускаю сеанс обучения тензорного потока из головного узла как одно задание, я получаю следующую ошибку: ImportError: Нет модуля с именем tensorflow, однако тензорный поток установлен на всех узлах кластера. Я попытался использовать файл задания крутящего момента, чтобы открыть оболочку тензорного потока на каждом узле, используя источник, активирующий тензорный поток в файле pbs, но это тоже не помогло. Какие возможные решения, которые могут мне помочь, могут помочь? - person Devon Jarvis; 05.10.2017
comment
@DevonJarvis Причин ImportError может быть много. Вы можете попробовать прочитать ответы на вопрос: stackoverflow.com/questions/14295680/ - person BlueSun; 05.10.2017