Как остановить установку улья/свиньи в Amazon Data Pipeline?

Мне не нужны Hive или Pig, и Amazon Data Pipeline по умолчанию устанавливает их на любой кластер EMR, который он раскручивает. Из-за этого тестирование занимает больше времени, чем должно. Любые идеи о том, как отключить для установки?


person anvitron    schedule 17.01.2014    source источник


Ответы (1)


Это невозможно на сегодняшний день.

Единственным обходным решением будет запуск небольшого кластера EMR, который вы используете для тестирования (например, с одним мастером — m1.small). Затем используйте его с «workergroup», а не «runsOn».

В зависимости от типа действий, которые вы хотите использовать, поле workergroup может поддерживаться или не поддерживаться. Но вы всегда можете обернуть все в скрипт (python, shell или бла) и использовать его с ShellCommandActivity.


Обновление (правильно напомнило ChristopherB):

Начиная с версии 3.x AMI, Hive и Pig входят в состав самого AMI. Таким образом, эти шаги не извлекают новые пакеты из S3, а только активируют демоны на главном узле. Поэтому, если вы не беспокоитесь о том, что они потребляют ресурсы вашего экземпляра (ЦП, память и т. д.), все должно быть в порядке. Они не займут заметного времени для запуска.

person panther    schedule 16.02.2015
comment
Для EMR AMI 3.x и более поздних версий шаги по их добавлению не приводят к работе, поскольку с этими AMI программное обеспечение уже предварительно загружено для Pig и Hive. - person ChristopherB; 18.02.2015