Мне не нужны Hive или Pig, и Amazon Data Pipeline по умолчанию устанавливает их на любой кластер EMR, который он раскручивает. Из-за этого тестирование занимает больше времени, чем должно. Любые идеи о том, как отключить для установки?
Как остановить установку улья/свиньи в Amazon Data Pipeline?
Ответы (1)
Это невозможно на сегодняшний день.
Единственным обходным решением будет запуск небольшого кластера EMR, который вы используете для тестирования (например, с одним мастером — m1.small). Затем используйте его с «workergroup», а не «runsOn».
В зависимости от типа действий, которые вы хотите использовать, поле workergroup может поддерживаться или не поддерживаться. Но вы всегда можете обернуть все в скрипт (python, shell или бла) и использовать его с ShellCommandActivity.
Обновление (правильно напомнило ChristopherB):
Начиная с версии 3.x AMI, Hive и Pig входят в состав самого AMI. Таким образом, эти шаги не извлекают новые пакеты из S3, а только активируют демоны на главном узле. Поэтому, если вы не беспокоитесь о том, что они потребляют ресурсы вашего экземпляра (ЦП, память и т. д.), все должно быть в порядке. Они не займут заметного времени для запуска.