Slurm: в чем разница между исполнением кода под salloc и srun

Я использую кластер, управляемый slurm, для выполнения некоторых тестов yarn / hadoop. Для этого я запускаю серверы hadoop на узлах, выделенных slurm, а затем запускаю на них тесты. Я понимаю, что это не предполагаемый способ запуска производственного кластера hadoop, но это необходимо.

Для этого я начал с написания сценария, который запускается с srun, например, srun -N 4 setup.sh. Этот сценарий записывает файлы конфигурации и запускает серверы на выделенных узлах, при этом машина с наименьшим номером выступает в качестве главного. Все это работает, и я могу запускать приложения.

Однако, поскольку я хотел бы запустить серверы один раз, а затем запустить на них несколько приложений без перезапуска / кодирования всего вначале, я хотел бы вместо этого использовать salloc. Я думал, что это будет простой случай запуска salloc -N 4, а затем srun setup.sh. К сожалению, это не работает, поскольку разные серверы не могут связываться друг с другом. Может ли кто-нибудь объяснить мне, в чем разница в операционной среде между использованием srun и использованием salloc, а затем srun?

Большое спасибо

Даниэль


person Daniel Goodman    schedule 03.03.2014    source источник


Ответы (1)


Из списка рассылки пользователей slurm:

sbatch и salloc выделяют ресурсы для задания, а srun запускает параллельные задачи по этим ресурсам. При вызове в рамках распределения заданий srun запускает параллельные задачи для некоторых или всех выделенных ресурсов. В этом случае srun по умолчанию наследует соответствующие параметры sbatch или salloc, под которыми он работает. Затем вы можете (обычно) предоставить srun различные параметры, которые переопределят то, что он получает по умолчанию. Каждый вызов srun в рамках задания называется этапом задания.

srun также можно вызывать вне распределения заданий. В этом случае srun запрашивает ресурсы, а когда эти ресурсы предоставляются, запускает задачи через эти ресурсы как одно задание и шаг задания.

person Prashant Singh    schedule 27.10.2014
comment
Спасибо за разъяснение, Дэниел. - person Daniel Goodman; 28.10.2014
comment
Вы также должны указать на исходный источник groups.google.com/forum / #! topic / slurm-devel / wKaUEOzuQq4 - person Ujjwal Aryan; 24.04.2016
comment
Предыдущая ссылка не работает. Новая ссылка: groups.google.com/d/msg/slurm-users / wKaUEOzuQq4 / oTTjHPWiybgJ - person mgarey; 17.10.2019