Я использую Spark в кластере в автономном режиме.
В настоящее время я работаю над приложением Spark Streaming. Я добавил контрольные точки для системы, чтобы иметь дело с внезапным сбоем основного процесса, и я вижу, что он работает хорошо.
Мой вопрос: что произойдет, если произойдет сбой всего узла (сбой питания, аппаратная ошибка и т. д.), есть ли способ автоматически идентифицировать неисправные узлы в кластере и, если да, перезапустить их на том же компьютере (или вместо этого перезапустить их на другом компьютере). )
Я просмотрел monit, но, похоже, он работает на определенной машине и перезапускает сбойные процессы, пока мне нужно сделать то же самое, но над узлами. Просто для ясности: я не возражаю, если операция перезапуска займет немного времени, но я бы предпочел, чтобы это происходило автоматически.
Есть какой-либо способ сделать это?
заранее спасибо