Готовый к производству механизм рекомендаций в режиме реального времени, который легко настроить

Я хочу хранить большое количество точек данных для действий пользователя, таких как лайки, теги и т. д. (у меня есть планы как для электронной коммерции, так и для управления документами).

С точками данных я хочу поддерживать такие функции, как

  1. рекомендации «пользователи, которые любили X, любили Y, Z»
  2. Кластеризация «получить больше вещей, похожих на X, Y».

Готов к производству, в режиме реального времени; Я имею в виду, что я могу вводить точки данных и делать запросы одновременно, сервер сам позаботится об ответах на запросы и обновлении оценок.


Я искал в Интернете, и решения, которые появляются, являются одним из:

  1. Библиотеки интеллектуального анализа данных, которые в основном ориентированы на академические науки и предназначены для больших пакетных операций, не для тяжелых запросов в реальном времени
  2. Hadoop/Mahout, готовый к работе и поддерживающий обновления и запросы в режиме реального времени, но требующий сложного обучения и сложный в администрировании.

person Jesvin Jose    schedule 14.12.2011    source источник


Ответы (2)


Для рекомендателей у Mahout есть нераспределенная реализация рекомендателя, которая не использует Hadoop. Фактически, это единственная часть, работающая в режиме реального времени; части на базе Hadoop — нет.

Я думаю, что этому нужно немного научиться; см. здесь и здесь для довольно полного описания.

Mahout в действии, в главах 2–5 это тоже достаточно хорошо описано.

person Sean Owen    schedule 15.12.2011

Пожалуйста, поймите, что для получения полезных рекомендаций различные параметры такой системы должны быть тщательно настроены. Готовые функциональные возможности, которые есть во многих системах (Oracle Data Mining, Microsoft Data Mining Extensions и т. д.), предлагают только основные функции.

Так что, в конце концов, я думаю, вы не обойдете «крутую кривую обучения». Вот почему вам нужны специалисты по интеллектуальному анализу данных. Если бы существовало решение типа «укажи и щелкни», оно было бы уже везде интегрировано.

Пример "похожие товары". Я сильно смеялся, когда Amazon однажды порекомендовал мне купить два продукта: Справочник администратора Debian Linux и... Справочник администратора Debian Linux С компакт-диском.

Надеюсь, вы уловили ключевой момент этого примера: для простого алгоритма две книги кажутся «похожими» и, таким образом, представляют собой разумную комбинацию. Для человека бессмысленно покупать одну и ту же книгу дважды. Вам нужно научить таким правилам любую рекомендательную систему, поскольку их нельзя легко узнать из данных. Всегда будут хорошие результаты и бесполезные результаты, и вам нужно тщательно настроить и параметризовать систему.

person Has QUIT--Anony-Mousse    schedule 17.12.2011