Я новичок в Hadoop MapReduce и недавно столкнулся с проблемой, связанной с биннингом выходных значений в преобразователе. Мой преобразователь создает вывод Text, IntWritable с идентификатором набора данных в качестве ключа и длиной описания метаданных в качестве значения. Моя цель состоит в том, чтобы разделить частоты длины метаданных на 3 группы: 1-200 символов, 201-400 символов и 401+ символов. Выходной файл выглядит следующим образом (первый столбец — ключ, второй столбец — значение — длина метаданных):
1 256
2 344
3 234
4 160
5 432
6 121
7 551
8 239
9 283
10 80
...
На основе приведенных выше значений результат биннинга должен отображаться:
1-200 3
201-400 5
401-... 2
Любые идеи о том, как подойти к нему? Должен ли я делать это как очистку Mapper, Combiner или в Reducer? Приветствуются примеры кода или ссылки на другие онлайн-источники. Спасибо.