Gridgain аварийное переключение главного (отправляющего) узла

Я работаю над проблемой пакетной обработки. Решение должно работать с неисправным оборудованием.

Есть главный узел (который инициирует выполнение задач) и рабочие узлы, которые выполняют задания. Я знаю, как работает аварийное переключение рабочих узлов, но я не смог найти никакой информации об аварийном переключении мастер-узлов. Всякий раз, когда главный узел, который запустил задачу, дает сбой, вся задача отменяется.

Есть ли способ завершить обработку задачи?

Не могли бы вы предложить лучший способ реализации отказоустойчивости главного узла?

С уважением, Куба.

Kuba 10.03.2011 источник

Ответы (1)

arrow_upward
2
arrow_downward

Всякий раз, когда ваш мастер-узел умирает, в основном некому выполнять шаг «уменьшения» вашей задачи MapReduce.

Есть несколько способов, которыми вы можете попытаться смягчить эту проблему:

Сохраните промежуточные контрольные точки с помощью GridCheckpointSpi (GridTaskSession.saveCheckpoint(..) API), а затем, когда ваша задача перезапустится после сбоя узла, вы сможете проверить, сохранена ли контрольная точка, и начать с нее.
Сделайте то же самое, что и в (1), но вместо этого используйте сетку данных (GridCache API).
Если вас не волнует «уменьшение», пусть ваши задания игнорируют вызов «отмена» и просто сохраняют результаты в сетке данных, когда они будут выполнены.

--Лучший

morpheus 14.03.2011

Gridgain аварийное переключение главного (отправляющего) узла

Ответы (1)

Похожие вопросы