Как остановить установку улья/свиньи в Amazon Data Pipeline?

Мне не нужны Hive или Pig, и Amazon Data Pipeline по умолчанию устанавливает их на любой кластер EMR, который он раскручивает. Из-за этого тестирование занимает больше времени, чем должно. Любые идеи о том, как отключить для установки?

amazon-data-pipeline emr

anvitron 17.01.2014 источник

Ответы (1)

arrow_upward
1
arrow_downward

Это невозможно на сегодняшний день.

Единственным обходным решением будет запуск небольшого кластера EMR, который вы используете для тестирования (например, с одним мастером — m1.small). Затем используйте его с «workergroup», а не «runsOn».

В зависимости от типа действий, которые вы хотите использовать, поле workergroup может поддерживаться или не поддерживаться. Но вы всегда можете обернуть все в скрипт (python, shell или бла) и использовать его с ShellCommandActivity.

Обновление (правильно напомнило ChristopherB):

Начиная с версии 3.x AMI, Hive и Pig входят в состав самого AMI. Таким образом, эти шаги не извлекают новые пакеты из S3, а только активируют демоны на главном узле. Поэтому, если вы не беспокоитесь о том, что они потребляют ресурсы вашего экземпляра (ЦП, память и т. д.), все должно быть в порядке. Они не займут заметного времени для запуска.

panther 16.02.2015

comment

Для EMR AMI 3.x и более поздних версий шаги по их добавлению не приводят к работе, поскольку с этими AMI программное обеспечение уже предварительно загружено для Pig и Hive. - ChristopherB; 18.02.2015

Как остановить установку улья/свиньи в Amazon Data Pipeline?

Ответы (1)

Похожие вопросы