не удалось сохранить выходные данные: истекло время ожидания условия в рабочем процессе Argo

Я запускаю рабочий процесс Argo в Kubernetes. И после того, как я подписался на этот блог, чтобы настроить Jupyterhub, я начал получать это ошибка (никогда не было проблемы до использования Jupyterhub) на модулях на Argo: failed to save outputs: timed out waiting for the condition.

Работа всегда терпит неудачу, если я добавляю

  resources:
    limits:
      nvidia.com/gpu: 1

Но если gpu не используется, иногда это удается (с retryStrategy после случайных сбоев).

Может ли кто-нибудь мне помочь?


person user3368526    schedule 29.07.2019    source источник
comment
какая версия Арго?   -  person A_Suh    schedule 29.07.2019
comment
версия argo - v2.3.0   -  person user3368526    schedule 30.07.2019
comment
не могли бы вы вставить журналы контроллера рабочего процесса? kubectl logs -n argo workflow-controller-XXXX   -  person weitang114    schedule 30.07.2019
comment
@ user3368526 при добавлении resources: limits: nvidia.com/gpu: 1 происходит та же ошибка? вы пробовали увеличить параметр activeDeadlineSeconds для арго?   -  person A_Suh    schedule 30.07.2019
comment
@A_Suh Спасибо, да, с той же ошибкой происходит сбой. Я увеличил activeDeadlineSeconds, но это ничего не изменило. Похоже, что на первом этапе невозможно получить доступ или сохранить артефакт в каталоге / tmp /, чтобы поделиться артефактами на всех этапах.   -  person user3368526    schedule 31.07.2019
comment
вы можете перечислить свои стручки? kubectl get pods --all-namespaces o wide   -  person A_Suh    schedule 22.08.2019
comment
вы нашли решение этой проблемы?   -  person TekTimmy    schedule 25.05.2020
comment
Аналогичное сообщение об ошибке, которое я также получаю с Argo 2.10.1, не удалось сохранить выходные данные: не удалось установить наблюдение за модулем: истекло время ожидания условия   -  person Black_Rider    schedule 04.09.2020
comment
Имея такую ​​же проблему! Вы нашли какое-нибудь решение?   -  person saranya elumalai    schedule 21.09.2020


Ответы (1)


У меня аналогичная ошибка, потому что мои artifactLogs не могут быть сохранены в minio из-за SSL, подписанного внутренним центром сертификации, и контейнер ожидания не монтирует мой том / volumeMounts, содержащий CA.crt

person Omer Sen    schedule 23.10.2020
comment
Если у вас есть дополнительная информация, но нет ответа, прокомментируйте сообщение. - person Ricardo Semião e Castro; 24.10.2020