Это был 1997 год. Казалось, что чемпион мира по шахматам Гарри Каспаров с легкостью устоит против Deep Blue, компьютерного алгоритма, который никак не мог понять 10-дюймовые возможности, в которых может разворачиваться шахматная игра. Однако вместо того, чтобы закрывать шорт Из-за огромного количества вычислений, которые он должен был выполнить, суперкомпьютер Deep Blue фактически победил Каспарова в матче со счетом 3,5–2,5. Как компьютер мог делать эти ходы, не пробуя каждую возможную комбинацию?

Введение в обучение с подкреплением

Откройте для себя обучение с подкреплением, подраздел машинного обучения, в котором компьютеры учатся методом проб и ошибок, используя прошлые отзывы для улучшения. Вместо того, чтобы использовать общее сопоставление ввода и вывода, как при обучении с учителем, в обучении с подкреплением используются вознаграждения за положительное поведение и наказание за отрицательное. Компьютеры «тренируются» в виртуальной среде, где им передается определенное состояние, в котором они находятся, и они должны предпринять определенные действия, которые увеличат получаемое вознаграждение до максимума.

Пример можно увидеть в игре в понг, игре, в которой два игрока имеют ракетки и непрерывно отбивают мяч друг от друга, ударяя по нему ракетками. Цель игры - победить противника, заставив его пропустить мяч. Функция вознаграждения в этом случае будет положительной для удара по мячу или того, что ваш противник пропустит мяч, в то время как функция вознаграждения будет отрицательной для пропуска мяча.

Когда компьютер впервые начинает обучение, он случайным образом выбирает действия из области действий - набора действий, которые агент может выполнять в игре. Для игры в Понг пространство действия будет перемещаться вверх или вниз. Однако, когда компьютер пытается максимизировать свою награду, он распознает закономерности в игре, например, если мяч движется вверх, вы должны переместить ракетку вверх. Со временем в игру можно будет играть на достойном уровне.

Следует отметить, что модель пытается максимизировать совокупное вознаграждение, а не мгновенное вознаграждение. Аналогию можно увидеть в игре в шахматы; взятие пешки может показаться лучшим мгновенным ходом, но получение лучшей позиции обеспечит лучшую совокупную награду.

Условия обучения с подкреплением

Термин №1: Марковские процессы принятия решений (MDP)

Не стесняйтесь пропустить первый абзац, если вас не интересует техническое определение марковских процессов принятия решений.

Одной из структур, используемых для обобщения задач обучения с подкреплением, являются Марковские процессы принятия решений (MDP). Короче говоря, MDP работают следующим образом: процесс запускается в состоянии s, и машина выбирает действие a из набора действий A (s ) доступен в состоянии s. Затем машина переводится в новое состояние s ' и получает вознаграждение R (s, s') в зависимости от его начального и текущего состояния. . Вероятность того, что процесс перейдет в состояние s ' для данного действия a и состояния s, равна P (s, s '| a), предполагая, что s и a условно независимы от прошлых действий.

Ух ты! Это было много для распаковки! Если вы хотите узнать больше о математике, лежащей в основе MDP, нажмите здесь. MDP используются для описания среды в обучении с подкреплением и могут использоваться для формализации практически любой проблемы обучения с подкреплением. Однако этот подход не работает в реальных сценариях, где среды часто не полностью отображены.

Это пример немодельного метода обучения с подкреплением, в котором для работы алгоритма необходимо формальное определение среды. Таким образом, их следует использовать только с небольшим количеством возможных состояний и простой средой.

Срок №2: Q-Learning

Q-Learning - это пример безмодельного подхода, который можно использовать для обучения с подкреплением. Этот метод обновляет Q-значения, когда действие a выполняется в состоянии s. Подобно нейронным сетям, Q-обучение сильно зависит от этого правила обновления значений; более формализованное определение можно увидеть ниже.

Обратите внимание, что Q-обучение использует несколько гиперпараметров, которые необходимо установить для модели заранее, что усложняет правильное обучение. Также обратите внимание, что должна быть оценка оптимального будущего значения, что необходимо, поскольку машина пытается оптимизировать общее совокупное вознаграждение, а не только мгновенное вознаграждение.

Методы разработки оценок для будущих значений включают Deep Q-Networks, в котором нейронные сети используются для оценки Q-значений, и Deep Deterministic Policy Gradient (DDPG), который решает проблема, изучая политику в непрерывных, многомерных пространствах действий.

Обучение с подкреплением в играх

Одно из наиболее значительных и популярных достижений обучения с подкреплением заключается в его способности побеждать сложные игры, такие как DOTA 2. В настоящее время OpenAI Five научился, играя более 10 000 лет в играх против самого себя, и может побеждать профессиональные команды в DOTA 2. , многопользовательская стратегическая игра.

Этот подвиг монументален: DOTA 2 - гораздо более сложная игра, чем шахматы, в ней задействованы различные наборы способностей, очков опыта, атак и защитных приемов. В целом персонаж может выполнить более 100 000 возможных действий, и в каждом матче имеется более 80 000 отдельных кадров. Другая проблема заключается в том, что в каждой команде по 5 игроков, а это означает, что ИИ должен работать с другими ИИ, чтобы защищать свою базу и атаковать базу противника.

Чтобы решить эту проблему, OpenAI Five использует модель глубокого обучения с подкреплением, которая использует вознаграждения, такие как убийства, смерти и ассисты, чтобы помочь им стать лучше. Несмотря на то, что этого никогда не учили, ИИ научились овладевать профессиональной тактикой в ​​игре и расставлять приоритеты для командного вознаграждения над индивидуальным. Это показывает, что ИИ способен изучать стратегии и приемы; Невероятно, как ИИ развил эту технологию после того, как начал со случайных ходов.

Обучение с подкреплением также может разрушить многие другие технологии. Его можно использовать для суммирования текста, чат-ботов, онлайн-торговли акциями и многого другого. Как сказал Каспаров:

«Речь идет об установлении правил. А установка правил означает, что у вас есть периметр. И до тех пор, пока машина может работать по периметру, зная, какова конечная цель, даже если это единственная информация, этого достаточно, чтобы машины достигли уровня, с которым люди не могут конкурировать ».

С ростом, который получило обучение с подкреплением за последние пару лет, заявление Каспарова может вскоре стать реальностью, поскольку обучение с подкреплением продолжает разрушать сотни областей.

TL;DR

  • Обучение с подкреплением - это подмножество машинного обучения, которое оптимизирует действия машины, обеспечивая функцию вознаграждения и обучение в виртуальной среде.
  • Марковские процессы принятия решений (MDP) позволяют формализовать наше понимание окружающей среды в среде, в которой может работать алгоритм обучения с подкреплением.
  • Q-Learning использует безмодельный подход к обучению с подкреплением и тренирует, обновляя q-значения.
  • Текущие инновации в обучении с подкреплением можно увидеть в разрушении OpenAI в DOTA 2, где их алгоритм искусственного интеллекта способен победить некоторых из лучших игроков в мире.
  • У обучения с подкреплением есть множество приложений, включая чат-ботов и онлайн-торговлю акциями.

Дальнейшее чтение

Для получения информации о проектах, над которыми я сейчас работаю, подпишитесь на мою рассылку новостей! Вот ссылка подписаться. Если вы заинтересованы в подключении, подписывайтесь на меня в Linkedin, Github и Medium.