Обработка XML в Hadoop

У меня есть почти 200+ xml-файлов в hdfs. Я использую XmlInputFormat (из mahout) для потоковой передачи элементов. Mapper может получить содержимое xml и обработать его. Но проблема в том, что обрабатывается только первый XML-файл. Но когда мы обрабатываем большое количество небольших текстовых файлов, после обработки 1-го файла следующие файлы будут переданы в преобразователь с помощью Hadoop. Сообщите мне, не является ли это поведением по умолчанию для файлов xml и что нужно сделать, чтобы перебрать весь набор файлов xml. Спасибо.

xml hadoop mahout

Venkiram 16.05.2011 источник

comment

Можете ли вы показать, как вы запускаете карту? Можете ли вы привести примеры того, что вы делаете? Это может быть что угодно, от неправильного запуска mapreduce до плохо написанного маппера и многого другого... Недостаточно информации. - QuinnG 16.05.2011

Ответы (1)

arrow_upward
1
arrow_downward

Мне повезло, я использовал обычный класс XmlStreamRecordReader, а затем зацикливался на стандартном ввод (с Python, API потоковой передачи Hadoop).

Насколько велики файлы и работаете ли вы в одной системе или в многоузловом кластере? Какой установлен размер блока HDFS?

David Hill 17.08.2011

Обработка XML в Hadoop

Ответы (1)

Похожие вопросы