как запустить/установить oozie в кластере EMR

Я хочу организовать свою работу в EMR. поэтому я подумал, что Узи подойдет. Я сделал несколько POC в рабочем процессе oozie, но в локальном режиме он довольно прост и великолепен.

Но я не понимаю, как использовать oozie на кластере EMR. Основываясь на некоторых поисках, я узнал, что aws не поставляется с oozie, поэтому мы установили его явно как действие начальной загрузки. Большинство людей указывают на эту ссылку https://github.com/lila/emr-oozie-sample

Но поскольку я новичок в aws (EMR), я все еще не понимаю, как его использовать. Будет здорово, если кто-нибудь сможет упростить это для меня, предоставив некоторые шаги или что-то в этом роде.

Спасибо


person sunil    schedule 12.03.2014    source источник


Ответы (5)


У меня возник вопрос, который я отправил в службу технической поддержки AWS, и получил ответ ниже. Я попробовал это, и Oozie все установлено и работает без каких-либо дополнительных усилий.

Чтобы установить Oozie в кластере EMR, вам необходимо установить Hue. Причина в том, что в настоящее время Oozie на EMR устанавливается как зависимость для Hue. Hue поддерживается в AMI 3.3.0 и 3.3.1 в соответствии с http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/ami-versions-supported.html. После запуска кластера EMR с помощью Hue -> http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-hue.html вы сможете сразу же использовать Oozie, так как он уже настроен и запущен.

person Chintan    schedule 19.12.2014

Выпуски серий EMR 4.x и 5.x теперь поставляются с Oozie в качестве дополнительного приложения. Также недавно в блоге AWS Big Data появился пост, в котором рассказывается, как начать работу с ним:

https://blogs.aws.amazon.com/bigdata/post/TxZ4KDBGBMZYJL/Use-Apache-Oozie-Workflows-to-Automate-Apache-Spark-Jobs-and-more-on-Amazon-EMR

person grimetime    schedule 26.08.2016

Этот проект github также устанавливает Oozie, поэтому вам не нужно об этом заботиться. Конфигурация для установки Oozie находится по следующей ссылке:

https://github.com/lila/emr-oozie-sample/blob/master/config/config-oozie.sh

После этого есть некоторые задачи, которые вы можете выполнить из командной оболочки: create: ssh: sshproxy: socksproxy:

Итак, если вы будете следовать его инструкциям, вам нужно будет запустить только некоторые из этих задач, чтобы создать и выполнить задачу EMR с помощью Oozie.

person Ivan Fernandez    schedule 26.03.2014

Для тех, кому интересно, я клонировал репозиторий и обновил скрипт установщика Oozie для поддержки Hadoop 2.4.0 и Oozie 4.0.1.

https://github.com/davideanastasia/emr-oozie-sample

person davideanastasia    schedule 04.09.2014

Во-первых, это не прямой ответ на этот вопрос.

EMR интегрируется с Data Pipeline — собственным планировщиком Amazon и оркестратором рабочих процессов данных. Amazon ожидает, что вы будете использовать Data Pipeline с EMR. Он может создавать, запускать и завершать кластеры EMR, управлять жизненным циклом кластера и т. д. Оцените это, чтобы понять, подходит ли оно вам лучше.

person user1452132    schedule 09.09.2014