Многорукий бандит

Механизмы рекомендаций на базе обучения с подкреплением.

Августовский выпуск Design + AI был забит теориями, терминологией и идеями. Мы приветствовали Инмара Джовони, нынешнего менеджера по автономному проектированию в Uber ATG и бывшего руководителя отдела обработки и анализа данных в Kobo, чтобы он поделился с нами тематическим исследованием. Инмар рассказала нам о своих мыслях и решениях, которые приняла ее команда Kobo при использовании обучения с подкреплением, чтобы предлагать электронные книги своим клиентам. Написание этой статьи заняло немного больше времени, чем обычно - вот сводка обсуждений с мероприятия.

Многорукий бандит

Команде Инмара нужен был управляемый данными способ определения оптимального расположения книжных каруселей на веб-сайте Kobo для стимулирования покупок книг. Это было сложной задачей с точки зрения понимания того, какие переменные следует включать на веб-сайт, а также каким образом отображать эти переменные для каждого сегмента клиентов. Итак, она использовала алгоритм многорукого бандита.

Алгоритмы Multi-Armed Bandit (MAB) - это форма обучения с подкреплением. А проблема МАБ исходит от игровых автоматов, или однорукого бандита. Представьте, что вы находитесь в казино напротив ряда игровых автоматов. Вы хотите увеличить свой выигрыш и иметь ограниченную сумму денег для игры. Поскольку у вас нет предварительных сведений о том, какие автоматы выплачивают чаще, вы просто начинаете на них играть; регулировка того, на каких машинах вы играете, в каком порядке и как часто - для того, чтобы склоняться к игре на машинах, которые максимизируют вашу награду. Это концепция MAB. То, что вы пробуете несколько вариантов, но как только вы почувствуете, какой из них предлагает наибольший успех, вы играете с ним чаще, чем с другими (также известный как компромисс с разведкой и эксплуатацией - подробнее об этом ниже).

Команда Инмара взяла этот метод и применила его к организации переменных на своем веб-сайте электронных книг, чтобы выяснить, какие комбинации карусели книг и рекомендации привели к увеличению продаж книг в Интернете.

MAB отличается (лучше!) От AB Testing по двум основным направлениям.

Одна из самых захватывающих вещей в MAB заключается в том, что он позволяет вам улучшить ожидаемые результаты, пока тестирование еще не завершено. Для команды Инмара это означало, что как только определенная комбинация книжных каруселей (жанр, популярный сейчас, рекомендованный для вас) начинает работать хорошо, алгоритм будет усиливать эту комбинацию, а также уменьшать количество клиентов, видящих комбинацию, которая была менее эффективной. Что ж. Это интересно для компаний, поскольку означает, что деньги, потерянные во время тестирования, сведены к минимуму. В отличие от a / b-тестирования, даже если вариант b дает менее желаемый результат (меньше продаж), половине клиентов этот вариант показан до конца теста - это означает, что компания потенциально теряет продажи, которые они могли бы захватили, если бы они отправили клиентов по варианту а.

Как вы понимаете, максимизация прибыли во время тестирования желательна для компаний. MAB также может применяться в здравоохранении - например, при проведении клинических испытаний нового фармацевтического препарата. Использование МАБ в этой настройке означает, что, если новое тестируемое лекарство дает хорошие результаты для участников, администраторы испытания могут позволить большему количеству людей получать настоящие лекарства и меньшему количеству участников получать плацебо. Таким образом, МАБ может улучшить состояние здоровья людей и, возможно, даже спасти жизни.

Кроме того, MAB может быть полезен там, где существует множество возможных комбинаций переменных, которые следует учитывать - больше, чем можно было бы проверить в тесте a / b, или это очень дорого и требует много времени. Так было с сайтом Kobo; было так много комбинаций различных способов отображения параметров книги на веб-сайте, что для их проверки с помощью A / B-теста потребовалось бы слишком много времени.

Контекстный многорукий бандит

Команда Инмара осознала разнообразие вкусов людей к чтению и хотела сделать свой алгоритм более персонализированным, чтобы со временем он стал умнее и приятнее для клиентов. Итак, они настроили МАБ, чтобы он стал контекстным многоруким бандитом. Как это работало: если я обычно читаю детективные романы (ведро а), иногда читаю книги по лидерству и менеджменту (ведро б), и однажды в синюю луну читает биографию (ведро с), контекстуальный МАБ начинает принимать эти предпочтения учитываются.

Эта настройка означает, что алгоритм обычно показывает мне книги и карусели, которые соответствуют наиболее близкой мне сегментации (сегменты a и b), но иногда он будет рекомендовать книги из категорий, которые я очень редко выбираю (сегмент c). Это начинает имитировать то, что люди делают в реальной жизни, и дает возможность случайно увидеть книги, которые могут быть мне интересны, но выходят за рамки моего обычного покупательского поведения.

Немного терминологии

Проблема с холодным запуском

Что происходит, когда компания хочет порекомендовать книгу, фильм или песню новому покупателю, но ничего не знает о том, что клиенту нравится / не нравится, его поведению, покупательским привычкам или распорядку дня? Это проблема холодного старта: проблема отсутствия информации о новом пользователе / клиенте, когда они впервые присоединяются к платформе, и поэтому их сложно сегментировать. Это также причина того, что рекомендации улучшаются, чем дольше вы используете платформу - чем лучше алгоритм знает вас и ваши предпочтения, тем точнее могут быть рекомендации.

Разведка / Эксплуатация

Представьте, что вы в ресторане. Вы заказываете в меню то, что, как вы знаете, вам понравится? Или вы рискуете попробовать что-то новое, если что-то упускаете? В какой момент вы решаете, что испробовали достаточно разных вещей и хотите просто бургер с индейкой? Аналогичный компромисс происходит и с МАБ. Компромисс между разведкой и эксплуатацией в обучении с подкреплением проиллюстрирован в задаче многорукого бандита, в которой алгоритм должен решить между получением новых знаний и максимизацией вознаграждения.

Где еще вы видели, как многорукого бандита использовали? А как насчет контекстного MAB?

-Сацуко

использованная литература

При написании этого поста я обнаружил отличный подкаст о науке о данных и машинном обучении. У них было несколько отличных эпизодов о многоруком бандите и обучении с подкреплением.

Многорукие бандиты
Многорукие бандиты: как провести случайный эксперимент и сделать его сложнее, лучше, быстрее, сильнее. По сути, это… lineardigressions.com

Обучение с подкреплением для искусственного интеллекта
Обучение с подкреплением, форма полууправляемого машинного обучения, лежащая в основе… lineardigressions.com, вызывает огромное волнение

Многорукий бандит

Механизмы рекомендаций на базе обучения с подкреплением.

Многорукий бандит

MAB отличается (лучше!) От AB Testing по двум основным направлениям.

Контекстный многорукий бандит

Немного терминологии

Проблема с холодным запуском

Разведка / Эксплуатация

использованная литература

Похожие вопросы