Я использую кластер, управляемый slurm, для выполнения некоторых тестов yarn / hadoop. Для этого я запускаю серверы hadoop на узлах, выделенных slurm, а затем запускаю на них тесты. Я понимаю, что это не предполагаемый способ запуска производственного кластера hadoop, но это необходимо.
Для этого я начал с написания сценария, который запускается с srun, например, srun -N 4 setup.sh
. Этот сценарий записывает файлы конфигурации и запускает серверы на выделенных узлах, при этом машина с наименьшим номером выступает в качестве главного. Все это работает, и я могу запускать приложения.
Однако, поскольку я хотел бы запустить серверы один раз, а затем запустить на них несколько приложений без перезапуска / кодирования всего вначале, я хотел бы вместо этого использовать salloc
. Я думал, что это будет простой случай запуска salloc -N 4
, а затем srun setup.sh
. К сожалению, это не работает, поскольку разные серверы не могут связываться друг с другом. Может ли кто-нибудь объяснить мне, в чем разница в операционной среде между использованием srun
и использованием salloc
, а затем srun
?
Большое спасибо
Даниэль