У меня есть почти 200+ xml-файлов в hdfs. Я использую XmlInputFormat (из mahout) для потоковой передачи элементов. Mapper может получить содержимое xml и обработать его. Но проблема в том, что обрабатывается только первый XML-файл. Но когда мы обрабатываем большое количество небольших текстовых файлов, после обработки 1-го файла следующие файлы будут переданы в преобразователь с помощью Hadoop. Сообщите мне, не является ли это поведением по умолчанию для файлов xml и что нужно сделать, чтобы перебрать весь набор файлов xml. Спасибо.
Обработка XML в Hadoop
comment
Можете ли вы показать, как вы запускаете карту? Можете ли вы привести примеры того, что вы делаете? Это может быть что угодно, от неправильного запуска mapreduce до плохо написанного маппера и многого другого... Недостаточно информации.
- person QuinnG   schedule 16.05.2011
Ответы (1)
Мне повезло, я использовал обычный класс XmlStreamRecordReader, а затем зацикливался на стандартном ввод (с Python, API потоковой передачи Hadoop).
Насколько велики файлы и работаете ли вы в одной системе или в многоузловом кластере? Какой установлен размер блока HDFS?
person
David Hill
schedule
17.08.2011