Проблема многорукого бандита в обучении с подкреплением

В этой статье вы узнаете об обучении с подкреплением, знаменитой проблеме многорукого бандита, ее применении и некоторых стратегиях решения проблемы.

Задача о многоруком бандите — очень популярная проблема в обучении с подкреплением. Но эй, что такое обучение с подкреплением?

Обучение с подкреплением — это тип алгоритма машинного обучения, который представляет собой алгоритм, основанный на вознаграждении и наказании, где за правильные прогнозы мы вознаграждаем машину, а за неправильные прогнозы — алгоритм.
Конечно, мы не будем давать машине еду или деньги в случае вознаграждения, но мы можем предоставить бинарную 1 для правильных прогнозов и двоичный 0 для неправильных.

Теперь перейдем к знаменитой задаче о многоруком бандите. Если вы вернетесь в 90-е, вы обнаружите, что игровые автоматы, используемые в казино, имели однорычажный рычаг.

Вы должны поместить монету внутрь машины и потянуть за рычаг или рычаг, который вы можете видеть на картинке выше. Затем будут катиться три барабана, и если вам повезет, вы получите награду. Если вы хотите увидеть, как это работает, вы также можете посмотреть видео на Youtube. Ссылка здесь".

Эти машины назывались Однорукими бандитами. Вам может быть интересно, что это за игровые автоматы, тогда почему их называют бандитами? Правильнее было бы назвать их однорукими игровыми автоматами.

Причина, по которой их называют бандитами, заключается в том, что эти игровые автоматы были созданы, чтобы украсть у вас ваши деньги. Звучит смешно, но именно поэтому их называют бандитами.

Что такое многорукие бандиты?
Когда вы зайдете в казино в 90-х, вы найдете эти несколько одноруких игровых автоматов. Предположим, что есть 5 игровых автоматов, и ваша задача состоит в том, чтобы выяснить, как максимизировать свою прибыль от количества игр, сыгранных на всех этих 5 автоматах.

Таким образом, вы должны исследовать все эти машины и использовать лучшую из них, чтобы максимизировать прибыль.

Давайте подробнее обсудим эти методы исследования и эксплуатации.

Исследование:
Исследование проводится на всех 5 игровых автоматах достаточное количество раз, чтобы понять, какой из них принесет максимальную прибыль.

Эксплуатация:
Эксплуатация происходит, когда у вас есть довольно четкое представление о том, какая машина принесет вам максимальную прибыль, и вы играете на этой машине только для того, чтобы максимизировать свою прибыль.

Это проблема многорукого бандита!

Приложения
Его можно применять во многих реальных сценариях, таких как

  1. Выбирая рестораны, еда в которых доставляет вам максимальное удовольствие.
  2. Решите, какой курс выбрать в качестве специальности в колледже.
  3. Поиск лучшего портфеля в инвестиционном планировании и т. д.

Некоторые стратегии в задаче о многоруком бандите

Предположим, у вас есть 100 никелевых монет, и вы должны максимизировать возврат инвестиций на 5 из этих игровых автоматов. Предполагая, что только одна машина из 5 даст вам максимальную прибыль.

Стратегия 1: Только исследование
В этой стратегии вы будете делить по 20 монет на каждый из игровых автоматов и играть ими. Это может быть мудрым подходом, но он не даст вам максимальной прибыли, так как из 5 только одна даст максимальную прибыль, а другие могут быть намного меньше.

Стратегия 2: Только эксплуатация
В этой стратегии вы попробуете все 5 машин один раз и продолжите на той машине, где вы найдете максимальную прибыль с остальными монетами. Но вот загвоздка. Предположим, что в первый раз вы получаете максимальную прибыль на Машине 1, но Машина 5 может дать максимальную прибыль в долгосрочной перспективе. Тогда с этой стратегией вы будете инвестировать в саму машину 1 и не получите максимальную отдачу, которую вы могли бы получить в машине 5.

Стратегия 3: ε — жадный метод
В этой стратегии мы начинаем с установки некоторого более низкого значения ε (эпсилон), например, 5% или 10%, что-то в этом роде. В нем говорится, что в любое время есть 5% шанс, что мы случайно выберем игровой автомат. Вероятность того, что в любой момент времени мы будем играть на том игровом автомате, который исторически приносил нам максимальную прибыль, составляет 95%.

Скажем, в конце 20-й монеты, то есть на 21-й монете, мы запускаем наш генератор случайных чисел и обнаруживаем, что с вероятностью 5% мы должны использовать наши текущие знания сегодня. Итак, что мы делаем, так это просматриваем первый 20-й опыт монет и находим, какой автомат дал нам наибольшую прибыль, и мы играем на этом игровом автомате.

Теперь, скажем, это 22-я монета, и мы снова смотрим на наш генератор случайных чисел и обнаруживаем, что в этот раз мы используем 1/5 шанса посетить любой из 5 игровых автоматов, чтобы просто получить знания о другом автомате. Чтобы мы стали еще более уверенными в своем решении, когда наступит следующий день эксплойта.

Производительность будет зависеть от выбора самого эпсилон ε. Следовательно, это будет лучшая стратегия по сравнению со Стратегией 1 и Стратегией 2.

Может быть много стратегий, таких как метод UCB, выборка Томпсона и т. д. Это лучшие стратегии, которые мы увидим в другой статье.

Эта статья посвящена исключительно проблеме многоруких бандитов!

Ссылки:

  1. https://www.udemy.com/course/machinelearning/learn/lecture/6456816#questions
  2. https://www.youtube.com/watch?v=cirWlE98AnU
  3. https://www.youtube.com/watch?v=e3L4VocZnnQ