Все задания в очереди Q для планировщика Torque Pbs

Я новичок в планировщике крутящего момента/pbs, и я установил его на сервере на одном компьютере с Debian 8 и сделал еще одну установку на клиенте на вычислительном узле с Debian 8.

На моем сервере запущены pbs_server и pbs_sched, на моем вычислительном узле есть pbs_mom, в каждом журнале нет ошибок, pbsnode -a кажется хорошим:

root@debian8s-1:[torque]>pbsnodes -a
debian8s-2
     state = free
     power_state = Running
     np = 4
     ntype = cluster
     status = rectime=1458048686,macaddr=00:14:5d:0f:8d:08,cpuclock=Fixed,varattr=,jobs=,state=free,netload=109918452,gres=,loadave=0.32,ncpus=4,physmem=16432364kb,availmem=20066372kb,totmem=20337896kb,idletime=13385,nusers=1,nsessions=3,sessions=989 992 998,uname=Linux debian8s-2 3.16.0-4-amd64 #1 SMP Debian 3.16.7-ckt11-1+deb8u4 (2015-09-19) x86_64,opsys=linux
     mom_service_port = 15002
     mom_manager_port = 15003

и все задания, которые я отправляю, застревают в Q:

root@debian8s-1:[torque]>qstat
Job ID                    Name             User            Time Use S Queue
------------------------- ---------------- --------------- -------- - -----
3.debian8s-1               STDIN            tototo                 0 Q batch          
5.debian8s-1               my_job           tototo                 0 Q batch          
6.debian8s-1               STDIN            tototo                 0 Q batch          
7.debian8s-1               STDIN            tototo                 0 Q batch          
8.debian8s-1               STDIN            tototo                 0 Q batch 

Я искал документацию, но ничего не нашел об этой проблеме, кто-нибудь знает, что я пропустил?

благодаря.


person johan    schedule 15.03.2016    source источник
comment
Сначала проверьте журналы планировщика. Вы можете использовать tracejob 3 или qstat -f 3 для получения информации о задании №3. Распечатайте конфигурацию сервера и очереди, используя qmgr -c print server. Опубликуйте свои выводы.   -  person Dmitri Chubarov    schedule 16.03.2016


Ответы (1)


Согласно комментарию Дмитрия, tracejob и qstat -f - хорошие места для поиска. Конечно, вы захотите убедиться, что pbs_sched действительно работает; если это так, вам нужно будет устранить неполадки, проверив журналы pbs_mom, которые вы найдете по умолчанию в /var/spool/torque/mom_logs/<YYYYMMDD> на вычислительных узлах (если есть сомнения, запустите pbs_mom --about для получения сведений об установке. Кроме того, особенно в тех случаях, когда задания не запускаются, возможно, вам придется искать pbs_mom записей журнала в /var/log/messages на хосте MOM.Вы можете отправить тестовое задание для запуска на определенном узле следующим образом:

echo sleep 600 | qsub -l nodes=cn001:ppn=1,walltime=630

Затем вы можете заставить его запуститься, введя qrun <job ID>

Кроме того, вы можете ввести kill -SIGUSR1 $(pgrep pbs_mom) на узле, чтобы увеличить логирование (или momctl -q loglevel, чтобы увидеть текущий уровень, и momctl -q loglevel=6, чтобы изменить его).

person clusterdude    schedule 22.05.2016