Обработка XML в Hadoop

У меня есть почти 200+ xml-файлов в hdfs. Я использую XmlInputFormat (из mahout) для потоковой передачи элементов. Mapper может получить содержимое xml и обработать его. Но проблема в том, что обрабатывается только первый XML-файл. Но когда мы обрабатываем большое количество небольших текстовых файлов, после обработки 1-го файла следующие файлы будут переданы в преобразователь с помощью Hadoop. Сообщите мне, не является ли это поведением по умолчанию для файлов xml и что нужно сделать, чтобы перебрать весь набор файлов xml. Спасибо.


person Venkiram    schedule 16.05.2011    source источник
comment
Можете ли вы показать, как вы запускаете карту? Можете ли вы привести примеры того, что вы делаете? Это может быть что угодно, от неправильного запуска mapreduce до плохо написанного маппера и многого другого... Недостаточно информации.   -  person QuinnG    schedule 16.05.2011


Ответы (1)


Мне повезло, я использовал обычный класс XmlStreamRecordReader, а затем зацикливался на стандартном ввод (с Python, API потоковой передачи Hadoop).

Насколько велики файлы и работаете ли вы в одной системе или в многоузловом кластере? Какой установлен размер блока HDFS?

person David Hill    schedule 17.08.2011