Введение

В настоящее время мы ежедневно сталкиваемся с системой рекомендаций в нашей повседневной онлайн-жизни. Например, Amazon использует их, чтобы рекомендовать продукты, YouTube рекомендует похожие видео, Spotify рекомендует похожую музыку на основе нашей истории прослушивания, а Google - для персонализированной рекламы и результатов поиска. В этой статье обсуждаются ключевые показатели эффективности и бизнес-показатели для систем рекомендаций.

То, как компании измеряют влияние развернутой рекомендательной системы на бизнес, зависит от области применения и бизнес-модели компании. Такие бизнес-модели могут, например, частично или почти полностью основываться на рекламе (например, YouTube или сайты агрегирования новостей), и цель может заключаться в увеличении времени, которое пользователи проводят с сервисом. Повышение вовлеченности также часто является целью, когда предприятия (например, сервисы потоковой передачи музыки) используют модель фиксированной подписки, поскольку вовлеченность часто рассматривается как прокси для удержания. В других доменах действие рекомендателя может быть более прямым (например, на сайте электронной коммерции).

Проблемы измерения бизнес-ценности рекомендательных систем

Рекомендательные системы могут иметь положительное влияние на бизнес по-разному, но не всегда ясно, насколько велико это влияние на самом деле. Например, увеличение CTR часто используется в качестве показателя в отчетах о реальных развертываниях. Однако вопрос о том, в какой степени такое увеличение действительно отражает долгосрочную коммерческую ценность рекомендателя, остается открытым.

Связанная с этим проблема состоит в том, чтобы предсказать, повлияет ли запланированное улучшение используемого алгоритма рекомендаций положительно на определенные бизнес-меры? Один из способов, которым постоянно пытаются заниматься многие компании, - это проводить полевые тесты (A / B-тесты), чтобы измерить влияние определенных изменений. Поскольку такие полевые испытания могут быть дорогостоящими и рискованными, такие компании, как Netflix, дополнительно полагаются на автономные эксперименты, основанные на исторических данных, для предварительной оценки запланированных изменений алгоритмов. Теперь мы собираемся углубиться в некоторые из наиболее распространенных бизнес-показателей для рекомендательных систем.

Бизнес-показатели

Некоторые бизнес-показатели рекомендательных систем включают:

  1. CTR
  2. Принятие и преобразование
  3. Продажи и доход
  4. Влияние на распределение продаж
  5. Вовлеченность и поведение пользователей

1. CTR

С помощью рейтинга кликов (CTR) мы в той или иной форме измеряем, сколько кликов было получено рекомендациями. Основное предположение состоит в том, что большее количество кликов по рекомендованным элементам указывает на то, что рекомендации более актуальны для пользователей.

2. Коэффициенты усыновления и конверсии

Несмотря на то, что CTR может измерять внимание или интерес пользователей, он не может определить, действительно ли пользователям понравилась рекомендованная новостная статья, на которую они нажимали, или они купили товар, сведения о продукте которого они изучили на основе рекомендации. Поэтому часто используются альтернативные меры принятия, которые, как предполагается, лучше подходят для измерения полезности рекомендаций и которые часто основываются на соображениях, связанных с конкретной областью.

YouTube использует концепцию «длинных CTR», когда клики по рекомендациям засчитываются только в том случае, если пользователь впоследствии просмотрел определенную часть видео. Точно так же Netfix использует коэффициент просмотра в качестве меры, которая фиксирует, в скольких случаях видео или фильм был фактически воспроизведен после того, как был выбран из рекомендации. Однако переоценка ценности рекомендательной системы также может возникнуть при использовании определенных типов коэффициентов принятия. Когда почти все на веб-странице персонализировано или какая-либо форма рекомендации, например, в случае Netflix, подсчет только того, как часто пользователи начинают потоковую передачу такого элемента, также может вводить в заблуждение, поскольку эта мера будет включать пользователей, которые начали играть фильм, но в итоге он мне не понравился. Следовательно, нужно тщательно решить, когда считать такую ​​рекомендацию успешной.

Другие примеры включают сквозную покупку или сквозную ставку на eBay, а также «сквозную ссылку» или процент цитирования для рекомендаций в исследовательских работах или количество переходов по ссылкам внешним партнерам на торговых площадках в Интернете.

Платформа LinkedIn предложила новый метод рекомендаций по навыкам. Полевые испытания показали, что рекомендация списка навыков для добавления в профиль привела к большему количеству пользователей, добавивших навыки (49% против 4%), по сравнению с системой ручного ввода с опережающим вводом. Однако обратите внимание, что в этом полевом тесте сравнивались два разных подхода к пользовательскому интерфейсу. Таким образом, не совсем ясно, какая часть прироста может быть отнесена на счет метода рекомендаций, а какая - более удобным способом добавления навыков.

3. Продажи и доходŒ

Однако по-прежнему трудно оценить, как такое увеличение числа внедрений приводит к увеличению стоимости бизнеса?

Система рекомендаций может фактически сделать много предложений для пользователей, которые они все равно купят. Таким образом, рост стоимости бизнеса может быть ниже, чем мы могли бы ожидать, глядя только на рост показателей внедрения.

Более того, если релевантность рекомендаций была очень низкой уже изначально, то есть почти никто не нажимал на них, увеличение скорости принятия даже на 100% могло бы привести к очень ограниченной абсолютной дополнительной ценности для бизнеса.

4. Влияние на распределение продаж

Компании задаются вопросом, помогают ли им рекомендатели продвигать товары из «длинного хвоста» («труднодоступные товары») или они - в частности, когда они основаны на совместной фильтрации - способствуют увеличению продаж уже существующих популярные предметы. Исследование на веб-сайте одного из североамериканских интернет-магазинов показало, что рекомендательные системы помогли увеличить количество просмотров и продаж; но рост продаж популярных товаров был еще сильнее, что привело к потере рыночной доли нишевых товаров.

Хотя полевые испытания могут показать, что продвижение уже популярных товаров более выгодно, чем продвижение товаров с длинным хвостом, рекомендация товаров с длинным хвостом может иметь прямые или косвенные последствия для продаж в долгосрочной перспективе. Такие эффекты могут, например, возникать, когда покупатели обнаруживают в магазине дополнительные категории товаров через рекомендации с течением времени или когда покупатели позже переключаются на платную версию продукта, которая изначально была им рекомендована в качестве бесплатной пробной версии.

5. Поведение и вовлеченность пользователей

В различных областях применения, например потоковой передаче мультимедиа, считается, что более высокая вовлеченность пользователей приводит к повышению уровня удержания пользователей, что, в свою очередь, часто напрямую влияет на ценность для бизнеса.

В некоторых документах активность пользователей считается наиболее важным показателем эффективности. В случае LinkedIn отчеты показывают, что вовлечение пользователей сильно увеличилось, когда был введен новый механизм рекомендаций для аналогичных профилей. Их показатели активности включали как просмотры профиля, так и сообщения электронной почты, которыми обменивались рекрутеры и кандидаты.

Ограничения точности как бизнес-ценность и важность новизны, разнообразия, интуитивной прозорливости и охвата.

Существуют различные подходы к выбору стратегии рекомендаций: совместная или основанная на содержании или неперсонализированная, с использованием различных вариантов матричной факторизации или различных функций потерь. Трудно оценить, приводят ли зачастую крошечные улучшения точности (такие как RMSE, точность или отзыв) в соответствующие улучшения стоимости бизнеса при развертывании в реальных средах.

Интуитивно понятно, что наличие алгоритма, который может лучше предсказать, понравится ли пользователю определенный элемент, должно привести к лучшим или более уместным рекомендациям. Однако не всегда ясно, приведет ли это к увеличению стоимости бизнеса. Хорошие значения RMSE могут привести к тому, что рекомендации будут казаться пользователям довольно непонятными (даже если на самом деле они могут быть актуальными). Фактически, это может быть причиной, по которой Netfix может использовать большую часть (не персонализированной) ленты для своего метода ранжирования.

Рекомендации должны, например, иметь некоторый уровень новизны, чтобы помочь пользователям открывать для себя что-то новое, или должны быть разнообразными, чтобы избежать однообразных рекомендаций по элементам, которые слишком похожи друг на друга. Соответственно, был предложен ряд показателей для измерения этих факторов качества, например, путем количественной оценки разнообразия на основе попарного сходства предметов или путем определения новизны на основе популярности предмета. Рекомендации также должны учитывать охват, какой процент пространства пользовательских элементов можно рекомендовать, и интуитивную интуицию, насколько удивительны соответствующие рекомендации.

Вывод

Мы обсудили различные подходы к измерению ценности рекомендательной системы.

  1. CTR легко измерить, но часто это не конечная цель.
  2. Принятие и преобразование легко измерить, но часто требуется определение, специфичное для домена и приложения. Требует устного перевода и не всегда напрямую влияет на коммерческую ценность.
  3. Продажи и выручка являются наиболее информативными показателями, но не всегда могут быть определены напрямую.
  4. Влияние на распределение продаж - это очень прямое измерение, требующее тщательного понимания последствий сдвигов в распределении продаж.
  5. Удержание пользователей возвращает клиентов, что дает возможность для взаимодействия с пользователем, в то время как взаимодействие - это действия, которые предпринимают клиенты.