Оркестрация Apache Spark с использованием Apache Oozie

Мы думаем об интеграции искры apache в наш процесс вычислений, где мы сначала хотели использовать apache oozie и стандартные задания MR или MO (только карта).

После некоторых исследований осталось несколько вопросов:

  1. Можно ли организовать процесс искры apache с помощью apache oozie? Если да, то как?
  2. Нужен ли oozie или Spark может сам справиться с оркестровкой? (похоже, что унификация является одной из основных проблем в Spark)

При ответе рассмотрите следующие сценарии:

  1. выполнение рабочего процесса каждые 4 часа
  2. выполнение рабочего процесса всякий раз, когда доступны определенные данные
  3. запустить рабочий процесс и настроить его параметры

Спасибо за ваши ответы заранее.


person Matthias Kricke    schedule 14.07.2014    source источник
comment
Не много знаю об Oozie, но я бы сказал, что искра идет как можно проще, так как большая часть обработки потока выполняется внутри задания.   -  person aaronman    schedule 14.07.2014
comment
При этом мы несколько раз сталкивались с проблемой Spark Classpath. У нас есть нерешенные проблемы, связанные с попыткой заставить Spark видеть jar-файлы в HDFS. Вместо этого он возвращает ошибку Skip remote jar, как в этом сообщении: mail-archives.apache.org/mod_mbox/incubator-spark-user/ Я напишу еще раз, если найдем решение   -  person Brian Dolan    schedule 14.10.2014
comment
Спасибо! К сожалению, он все еще не включен для надлежащего тестирования.   -  person Matthias Kricke    schedule 16.03.2015


Ответы (1)


Spark поддерживается в Oozie 4.2 как тип действия, см. документы. Упомянутые вами сценарии являются общими функциями Oozie.

person Mikhail Golubtsov    schedule 15.06.2015