Задания Torque PBS, поступающие в очередь отладки

На моей новой работе я администрирую кластер, который использует крутящий момент в качестве менеджера ресурсов и maui в качестве планировщика.

В настоящее время я сталкиваюсь с этой повторяющейся проблемой, когда задания конкретных пользователей всегда отправляются в очередь отладки. Вот список активных очередей в системе:

Queue            Memory CPU Time Walltime Node  Run Que Lm  State
---------------- ------ -------- -------- ----  --- --- --  -----
debug              --      --    00:20:00   --    0   0 12   E R
intel              --      --       --      --    0   0 --   E R
medium             --      --    72:00:00   --    0   0 12   E R
bighuge            --      --       --      --    0   0 --   E R
long               --      --       --      --    0   0 12   E R
                                               ----- -----
                                                   0     0

Время ожидания для заданий, отправленных пользователем, составляет часы, поэтому я озадачен, почему его отправляют в очередь отладки.

Кроме того, вот вывод tracejob:

04/08/2016 15:46:48  S    enqueuing into intel, state 1 hop 1
04/08/2016 15:46:48  S    dequeuing from intel, state QUEUED
04/08/2016 15:46:48  S    enqueuing into debug, state 1 hop 1
04/08/2016 15:46:48  S    Job Queued at request of dawn@cm01, owner = dawn@cm01, job name = run01_submit.script, queue =
                          debug
04/08/2016 15:46:49  S    Job Run at request of root@cm01
04/08/2016 15:46:49  S    child reported success for job after 0 seconds (dest=n20), rc=0
04/08/2016 15:46:49  S    preparing to send 'b' mail for job 15631.cm01 to dawn@cm01 (---)
04/08/2016 15:46:49  S    Not sending email: User does not want mail of this type.
04/08/2016 15:46:49  S    obit received - updating final job usage info
04/08/2016 15:46:49  S    job exit status 1 handled
04/08/2016 15:46:49  S    preparing to send 'e' mail for job 15631.cm01 to dawn@cm01 (Exit_status=1
04/08/2016 15:46:49  S    Not sending email: User does not want mail of this type.
04/08/2016 15:46:49  S    Exit_status=1 resources_used.cput=00:00:00 resources_used.mem=0kb resources_used.vmem=0kb
                          resources_used.walltime=00:00:00
04/08/2016 15:46:49  S    on_job_exit task assigned to job
04/08/2016 15:46:49  S    req_jobobit completed
04/08/2016 15:46:49  S    JOB_SUBSTATE_EXITING
04/08/2016 15:46:49  S    JOB_SUBSTATE_STAGEOUT
04/08/2016 15:46:49  S    about to copy stdout/stderr/stageout files
04/08/2016 15:46:49  S    JOB_SUBSTATE_STAGEOUT
04/08/2016 15:46:49  S    JOB_SUBSTATE_STAGEDEL
04/08/2016 15:46:49  S    JOB_SUBSTATE_EXITED
04/08/2016 15:46:49  S    JOB_SUBSTATE_COMPLETE
04/08/2016 15:50:54  S    Request invalid for state of job COMPLETE
04/08/2016 15:51:00  S    Request invalid for state of job COMPLETE
04/08/2016 15:51:49  S    dequeuing from debug, state COMPLETE

Обходной путь теперь состоит в том, чтобы вручную изменить назначенную очередь для заданий с помощью команды qalter.

Любые идеи?


person feverDream    schedule 08.04.2016    source источник


Ответы (1)


Поскольку задание сразу же переходит из очереди Intel на отладку, я подозреваю, что у вас настроена автоматическая маршрутизация либо в qmgr, либо в Maui. Если очередь Intel настроена как очередь маршрутизации, это объясняет это.

Запустите qmgr -c "print queue intel", чтобы проверить это.

Если это не очередь маршрутизации, вы, вероятно, можете увеличить уровень журнала, чтобы лучше видеть, что происходит в журналах pbs_server.

Когда я таким образом создаю очередь маршрутизации, я получаю тот же тип вывода tracejob при отправке задания:

05/20/2016 20:04:05.439 S enqueuing into route, state 1 hop 1 05/20/2016 20:04:05.440 S dequeuing from route, state QUEUED 05/20/2016 20:04:05.440 S enqueuing into test, state 1 hop 1 05/20/2016 20:04:05.737 S Job Run at request of root@testserver

В противном случае изучите конфигурацию Maui и журналы для подсказок.

person clusterdude    schedule 21.05.2016
comment
Спасибо за ответ. Это спорадическая проблема, поэтому мне так и не удалось ее решить. Я обновлю вопросы на основе ваших предложений. Ваше здоровье! - person feverDream; 13.09.2016