Запустите новое потоковое задание Hadoop из текущего запущенного задания.

Можно ли создать и запустить новое задание Hadoop потоковой из любой

  1. Обычное задание Java Hadoop, которое выполняется в данный момент, или
  2. Hadoop Mapper (на Python), который выполняется как часть задания потоковой передачи Hadoop.

и как?


person T. Webster    schedule 10.06.2013    source источник


Ответы (1)


Для большинства заданий Java просто запустить .jar в программе Java. То же самое с потоковыми заданиями Python.

$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \ -input myInputDirs \ -output myOutputDir \ -mapper org.apache.hadoop.mapred.lib.IdentityMapper \ -reducer /bin/wc

person node    schedule 12.06.2013