Наивный байесовский классификатор Mahout для товаров

Команда,

Я работаю над проектом, в котором мне нужно классифицировать предметы по определенной категории. У меня есть один файл в качестве входных данных; который содержит целевую переменную и функции, разделенные пробелами. Мои тренировочные данные будут выглядеть так

Название категории [Tab] DataString

Сантехника [Tab] Трубный кран Пластиковая труба Труба из ПВХ Линия холодной воды Линия горячей воды Тройник вверх Колено загнуто вверх Колено загнуто вниз Задвижка Запорный клапан

Краска [Tab] Слоновая кость Черная жженая умбра Caput Mortuum Violet Earth Red Yellow Ochre Titanium White Кадмий Желтый Светлый Кадмий Желтый Темный

Ткань [Tab] Рубашка Футболка Пент Джинсы Футболка Карго

Ну, у меня действительно большой набор категорий. У меня есть пара вопросов здесь

  1. Я использую правильные данные для обучения? Если нет, то что мне использовать?
  2. Как только я обучу и протестирую свою модель, что будет дальше? Как я могу использовать вывод?

Пожалуйста, помогите мне с этим

Спасибо,

Нимеш


person Nimesh Parikh    schedule 17.04.2012    source источник
comment
У вас есть несколько записей для каждой категории, например. несколько строк для категории «Краска», каждая с другим, но перекрывающимся набором слов?   -  person Sicco    schedule 18.04.2012
comment
Вы можете ознакомиться с учебным пособием по адресу chimpler.wordpress.com/2013/03/13/ Он реализует что-то очень похожее на то, что вы пытаетесь сделать.   -  person Frederic Dang Ngoc    schedule 13.03.2013


Ответы (1)


да, как только вы получите некоторый результат, вы можете использовать его для тестирования. вы можете увидеть некоторый тестовый набор данных, генерирующий некоторый результат теста. некоторые хорошие, но некоторые нет. настроить модель или тестовый набор данных может быть вашим следующим шагом.

person Qinghao    schedule 27.07.2012