Как отправить уведомление о сбое задания в Google Dataproc?

Мне интересно, есть ли способ подключить некоторые уведомления для заданий, отправленных в Dataproc. Мы планируем использовать Dataproc для запуска потокового приложения 24/7. Но у Dataproc, похоже, нет способа уведомить о невыполненных заданиях.

Просто интересно, можно ли каким-либо образом использовать Google StackDriver.

Спасибо, Сурен.


person Suren Shrestha    schedule 22.07.2016    source источник


Ответы (2)


Конечно, StackDriver можно использовать для установки политики предупреждений для определенной метрики журнала. Например, вы можете установить политику Показатель отсутствия, которая будет отслеживать успешное выполнение задания и предупреждать, если оно отсутствует в течение определенного периода времени.

Перейдите в раздел Ведение журнала в консоли и установите фильтр:

resource.type="cloud_dataproc_cluster"
jsonPayload.message:"completed with exit code 0"

Нажмите Создать метрику. После заполнения сведений вы будете перенаправлены на страницу метрик журнала, где сможете создать оповещение на основе метрики.

person Anton Skovorodko    schedule 18.01.2018

Как отмечено в ответе выше, метрики на основе журнала могут быть принудительно предоставлены для обеспечения требуемой функциональности OP. Но metric absence для длительных заданий будет означать, что вам придется ждать дольше, чем предположение о самом продолжительном времени выполнения задания (и вы все равно можете получить предупреждение, если задание занимает немного больше времени, но не завершается сбоем). Что «нам» действительно нужно, так это способ мониторинга и оповещения о статусе задания failed или сообщение о завершении обслуживания, указывающее на сбой (как в вашем примере), чтобы мы немедленно уведомлялись. Да, вы можете определить основанную на журнале Stackdriver метрику, ища конкретные строки или значения, указывающие на сбой, и это «работает», но метрики — это подсчитываемые меры, например «сколько невыполненных заданий», и для их превращения требуются неудобные обходные пути. оповещение из метрики в простое оповещение о сбое этого задания. Чтобы это работало, например, предупреждение фильтруется по метрике, а также необходимо указать средний агрегатор за интервал для запуска предупреждения. Противный :(

person pink spikyhairman    schedule 20.06.2020