Альтернативные способы запуска потоковой передачи в Hadoop

Я могу успешно запустить потоковое задание Hadoop с терминала, но я ищу способы начать паровые задания через API, eclipse или другие средства.

Самое близкое, что я нашел, было это сообщение -hadoop-streaming-job, но на него нет ответов!

Любые идеи или предложения будут приветствоваться.


person Mark Vickery    schedule 10.01.2013    source источник


Ответы (3)


Интересный вопрос, я нашел способ сделать это, надеюсь, это поможет и вам.

Первый метод должен работать на Hadoop 0.22:

Configuration conf = new Configuration();
conf.set("fs.defaultFS", "hdfs://xxxxx:9000");
conf.set("mapred.job.tracker", "hdfs://xxxxx:9001");
StreamJob sj = new StreamJob();
try {
    ToolRunner.run(conf, sj, new String[] { 
                "-D", "stream.tmpdir=c:\\",
                "-mapper", "/path/to/mapper.py",
                "-reducer", "/path/to/reducer.py", "-input",
                "/path/to/input", "-output",
                "/path/to/output" });
} catch (Exception e) {
    e.printStackTrace();
}

Я также нашел оболочка Java, которую вы сможете запустить.

person Charles Menguy    schedule 10.01.2013
comment
Я пытаюсь сделать так, как вы сказали здесь, но я получаю код выхода 5. Есть идеи, как это интерпретировать? - person Mahdi; 18.06.2015
comment
Не бери в голову. Моя проблема заключалась в том, чтобы добавить правильные зависимости, а затем включить map-red.xml и yarn-site.xml в мою конфигурацию YarnConfiguration. - person Mahdi; 22.06.2015

Взгляните на Apache Oozie — после того, как вы определили свое задание с помощью XML, вы можете запустить задание через Http POST. на сервер узи

person Chris White    schedule 10.01.2013

Когда задание потоковой передачи Hadoop запускается как

hadoop jar /home/training/Installations/hadoop-1.0.3/contrib/streaming/hadoop-streaming-1.0.3.jar -input input4 -output output4 -mapper /home/training/Code/Streaming/max_temperature_map.rb -reducer /home/training/Код/Потоковая передача/max_temperature_reduce.rb

затем org.apache.hadoop.streaming.HadoopStreaming. Этот класс определен в MANIFEST.MF в файле hadoop-streaming-1.0.3.jar. Проверьте код в org.apache.hadoop.streaming.HadoopStreaming, чтобы узнать подробности API.

person Praveen Sripati    schedule 11.01.2013