Можно ли создать и запустить новое задание Hadoop потоковой из любой
- Обычное задание Java Hadoop, которое выполняется в данный момент, или
- Hadoop Mapper (на Python), который выполняется как часть задания потоковой передачи Hadoop.
и как?
Можно ли создать и запустить новое задание Hadoop потоковой из любой
и как?
Для большинства заданий Java просто запустить .jar в программе Java. То же самое с потоковыми заданиями Python.
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \ -input myInputDirs \ -output myOutputDir \ -mapper org.apache.hadoop.mapred.lib.IdentityMapper \ -reducer /bin/wc