Я просто пытаюсь оценить HBase для некоторых вещей анализа данных, которые мы делаем.
HBase будет содержать данные о наших событиях. Ключ будет eventId + время. Мы хотим провести анализ нескольких типов событий (4–5) в диапазоне дат. Общее количество типов событий составляет около 1000.
Проблема с запуском задания mapreduce для таблицы hbase заключается в том, что initTableMapperJob (см. ниже) берет только 1 объект сканирования. Из соображений производительности мы хотим сканировать данные только для 4-5 типов событий в заданном диапазоне дат, а не для 1000 типов событий. Если мы воспользуемся описанным ниже методом, то, я думаю, у нас не будет такого выбора, потому что он требует только 1 объект сканирования.
public static void initTableMapperJob (таблица строк, сканирование сканирования, сопоставление классов, класс outputKeyClass, класс outputValueClass, задание org.apache.hadoop.mapreduce.Job) выдает IOException
Можно ли запустить mapreduce для списка объектов сканирования? любой обходной путь?
Спасибо