Похоже, это скорее проблема поиска, а не проблема рекомендации. Вы в первую очередь сортируете и фильтруете результаты поиска на основе тегов. Таким образом, я думаю, что обычно развертываемым инструментом является Lucene, а не Mahout. (Хотя использование классификаторов Mahout для изучения тегов - это правильно.)
Если вы действительно хотите представить это как проблему с рекомендациями, я могу сказать, что ваши предметы - это теги. Каждый раз, когда вы взаимодействуете с тегом, например просматриваете страницу с тегами X, Y и Z, это означает, что вас немного больше интересуют «элементы» X, Y и Z. И тогда проблема с рекомендациями здесь заключается в том, чтобы предложить новые теги интерес.
Вы можете попробовать использовать простой подсчет взаимодействий с тегом в качестве числового «рейтинга», хотя я думаю, что это не даст хороших результатов в контексте рекомендаций. Использование журнала подсчета лучше, но все же кажется неправильным. Вы можете игнорировать счетчик взаимодействий и просто использовать тот факт, что пользователь и тег когда-либо взаимодействовали или нет - «логические предпочтения».
Модель рекомендательного алгоритма, которая лучше всего соответствует этому входу, о которой я знаю, - это модель альтернативных наименьших квадратов, которую вы видите в ParallelALSFactorizationJob. Я не знаю, можно ли это использовать для вас, но это алгоритм, который я бы исследовал, если у вас есть время и желание. Его вклад больше похож на «силу взаимодействия», а не на рейтинг, и он относится к нему именно так, и это то, что у вас здесь.
person
Sean Owen
schedule
12.03.2012