Как автоматически перезапустить отказавший узел в Spark Streaming?

Я использую Spark в кластере в автономном режиме.

В настоящее время я работаю над приложением Spark Streaming. Я добавил контрольные точки для системы, чтобы иметь дело с внезапным сбоем основного процесса, и я вижу, что он работает хорошо.

Мой вопрос: что произойдет, если произойдет сбой всего узла (сбой питания, аппаратная ошибка и т. д.), есть ли способ автоматически идентифицировать неисправные узлы в кластере и, если да, перезапустить их на том же компьютере (или вместо этого перезапустить их на другом компьютере). )

Я просмотрел monit, но, похоже, он работает на определенной машине и перезапускает сбойные процессы, пока мне нужно сделать то же самое, но над узлами. Просто для ясности: я не возражаю, если операция перезапуска займет немного времени, но я бы предпочел, чтобы это происходило автоматически.

Есть какой-либо способ сделать это?

заранее спасибо


person Gideon    schedule 09.11.2015    source источник


Ответы (1)


Spark Standalone имеет некоторую поддержку High-Availability, как описано в официальная документация, по крайней мере, для главного узла.

Когда рабочий узел умирает, Spark будет планировать задания на других узлах, что более или менее работает и с Spark Streaming.

Помимо этого, вам потребуются некоторые инструменты управления и мониторинга кластера.

person Marius Soutier    schedule 09.11.2015