В настоящее время я создаю рекомендательную систему с неявными данными (например, клики, просмотры, покупки), однако большая часть исследований, на которые я смотрел, похоже, пропускает этап агрегирования неявных данных. Например, как объединить несколько кликов и дополнительных покупок в единый пользовательский рейтинг (как это требуется для стандартной модели матричной факторизации)?
Я экспериментировал с несколькими методами, основанными на матричной факторизации, включая нейронную совместную фильтрацию, машины глубокой факторизации, LightFM и вариационные автоэнкодеры для совместной фильтрации. Ни в одной из этих статей, по-видимому, не рассматривается проблема агрегирования неявных данных. Они также не обсуждают, как взвешивать различные типы пользовательских событий (например, клики по сравнению с покупкой) при расчете оценки.
На данный момент я использую подход оценки достоверности (оценка конференции соответствует количеству событий), как описано в этой статье: http://yifanhu.net/PUB/cf.pdf. Однако этот подход не учитывает включение других типов пользовательских событий (кроме кликов) и не учитывает отрицательную неявную обратную связь (например, тонну показов без кликов).
В любом случае, я хотел бы получить некоторую информацию по этой теме! Любые мысли вообще будут очень признательны!