Gridgain аварийное переключение главного (отправляющего) узла

Я работаю над проблемой пакетной обработки. Решение должно работать с неисправным оборудованием.

Есть главный узел (который инициирует выполнение задач) и рабочие узлы, которые выполняют задания. Я знаю, как работает аварийное переключение рабочих узлов, но я не смог найти никакой информации об аварийном переключении мастер-узлов. Всякий раз, когда главный узел, который запустил задачу, дает сбой, вся задача отменяется.

Есть ли способ завершить обработку задачи?

Не могли бы вы предложить лучший способ реализации отказоустойчивости главного узла?

С уважением, Куба.


person Kuba    schedule 10.03.2011    source источник


Ответы (1)


Всякий раз, когда ваш мастер-узел умирает, в основном некому выполнять шаг «уменьшения» вашей задачи MapReduce.

Есть несколько способов, которыми вы можете попытаться смягчить эту проблему:

  1. Сохраните промежуточные контрольные точки с помощью GridCheckpointSpi (GridTaskSession.saveCheckpoint(..) API), а затем, когда ваша задача перезапустится после сбоя узла, вы сможете проверить, сохранена ли контрольная точка, и начать с нее.

  2. Сделайте то же самое, что и в (1), но вместо этого используйте сетку данных (GridCache API).

  3. Если вас не волнует «уменьшение», пусть ваши задания игнорируют вызов «отмена» и просто сохраняют результаты в сетке данных, когда они будут выполнены.

--Лучший

person morpheus    schedule 14.03.2011