Ссылка: http://videolectures.net/rldm2015_littman_computational_reinforcement/

В машинном обучении важную роль играет обучение с подкреплением. Это проистекает из способности системы принимать решения, которую можно улучшить за счет взаимодействия с миром и оценки обратной связи. Это руководство знакомит с основными понятиями и словарным запасом в этой области. Кроме того, в руководстве показаны последние достижения в теории и практике обучения с подкреплением.
Для начала докладчик использует график, чтобы показать нам важность знания естественного RLDM (обучения с подкреплением и принятия решений) для изучения искусственного RLDM. .

Затем он переходит к четырем основным разделам:

Что такое вычислительный RL:

Спикер использует пример, чтобы объяснить контролируемое обучение. Как мы все знаем, контролируемое обучение - это задача, которая выводит функцию из размеченных данных обучения [1]. Иными словами, мы должны построить правило, которое действует как обучающая выборка без переобучения. Как показано на левом изображении, каждый обучающий набор x имеет связанную метку a, и мы можем извлечь из этого урок. Когда вы вводите новый набор данных, он может отображать метку, принадлежащую этим данным.

Затем докладчик вводит обучение без учителя, которое представляет собой задачу, которая выводит функцию для описания скрытой структуры из «немаркированных» данных [2]. В задачах такого рода мы должны сгруппировать похожие примеры в один класс. Но это может не иметь отношения к тому, что мы хотим. Как показано на левом изображении, мы не знаем, как разделить набор обучающих данных на разные категории, поэтому мы позволяем компьютеру изучать обычный шаблон, и когда вы вводите новые данные, это может быть определено с помощью изученной модели.

Основное отличие обучения с подкреплением заключается в наличии оценочной обратной связи для этого выбора. Но для этой проблемы трудность заключается в том, что мы не можем знать, насколько хороша или плохая обратная связь. Итак, что нам нужно сделать, так это построить правило для получения максимального ожидаемого значения. Как показано на левом изображении, для каждого набора обучающих данных существует не только соответствующая категория, но и значение обратной связи для этого выбора. После изучения данных обучения он найдет способ сделать прогноз, за ​​которым следуют значения обратной связи.

Спикер дает три сравнения между последовательным и однократным, выборочным и исчерпывающим, оценочным и контролируемым и связывает различные виды обратной связи друг с другом. Затем он использует стандарт, чтобы решить, к какому типу относятся обучающие функции. Для контролируемого типа учащийся сообщает лучшее значение обратной связи. Для исчерпывающего типа обучающийся показывает все возможные обучающие наборы x. Для однократного типа нет никакой связи между прошлой обратной связью и текущим обучающим набором. Мы это видим на следующем рисунке.

Вводится гипотеза обучения с подкреплением: «Интеллектуальное поведение возникает в результате действий человека, стремящегося максимизировать полученные сигналы вознаграждения в сложном и меняющемся мире». Между тем, докладчик отмечает, что обучение с подкреплением - это способ реализовать ИИ. Есть две проблемы, которые мы должны решить, чтобы заставить его работать. Откуда берутся сигналы о вознаграждении? Как разработать алгоритмы, которые исследуют пространство поведения, чтобы максимизировать сигналы вознаграждения?

Взаимодействие агента и среды показано на диаграмме. Перед агентом стоят две проблемы: как действовать, чтобы максимизировать совокупное ожидаемое дисконтированное вознаграждение? Как сделать оптимизацию? Для мировой функции (среды) также есть две проблемы: как доставить вознаграждение, чтобы агент принял желаемое поведение? Как сделать конструкцию этого механизма? Также введена выразительность награды. Он используется для поощрения достижения цели. Когда-то он содержал мягкие компромиссы, и мы должны формировать награды, чтобы помочь обучению.

Награда - это своего рода выразительность, она подсказывает людям, что им делать. Ниже представлены два типа вознаграждений. Первый - способствовать достижению целевого состояния, а второй - избегать состояния отказа. Оба эти двое когда-то использовали мягкие компромиссы. Еще один способ сделать это - сформировать награды, которые могут помочь в обучении.

Планирование и обучение в марковских моделях:

Наиболее популярной формализацией является процесс принятия решений Маркова (MDP), который обеспечивает математическую основу для моделирования принятия решений в ситуациях. Этот процесс можно описать с помощью следующего изображения, оно будет моделировать изображение окружающей среды, как показано выше, которое само имеет две функции: функцию перехода и функцию вознаграждения. Он претерпевает серию переходов. Что касается состояния, он выбирает действие, получает некоторую награду и попадает в новое состояние, где он может получить новое действие и его награду, а также получить переход для перехода в другое состояние. Если агент запросит оптимальное вознаграждение, ожидаемое в будущем вознаграждение со скидкой от некоторых начальных s и предпримет одно действие a, он рекурсивно найдет оптимальное вознаграждение. Получаем, что функции следуют за процессом.

Кроме того, он использует пример «найди мяч», чтобы дать объяснение MDP. Есть всего два действия: повернуть влево и повернуть вправо. Если собака сталкивается с мячом, будет награда. Эта модель может быть использована для понимания MDP. Спикер также показывает планирование MDP, используемое для решения уравнения Беллмана:

В основном есть три функции: итерация по значению сходится в пределе, которая сначала угадывает функцию Q и использует итерации для схождения к результату; итерация политики сходится за конечное время, при этом сначала выполняется угадывание функции Q и построение функции Q для политики, после чего она может сойтись быстрее; а линейное программирование выполняется за полиномиальное время, при этом для реализации этой функции используются две повторяющиеся функции.

Вышеупомянутое содержание не рассказывало об обучении с подкреплением (RL), оно просто выясняло, дает ли кто-то вам MDP, что вы можете сделать для оптимизации. Итак, для алгоритмов RL докладчик показывает два типа: обучение без моделей, которое использует опыт для непосредственного построения Q-функции, и обучение на основе моделей, которое строит функцию перехода и функцию вознаграждения, а затем вычисляет Q-функцию. Q-обучение - это разновидность обучения без моделей: сначала оно инициализирует функцию Q, затем мы используем функцию Q, чтобы найти или изучить самые высокие награды за действия и взять их, затем наблюдаем за функцией перехода и снижаем скорость обучения. Это обучение «вне политики». Для SARSA это похоже на Q-обучение, но заменяет обновление в другом переходе наблюдения. Это обучение «по политике».

Для обучения на основе моделей оно предполагает знание перехода, функции вознаграждения, а также пространств состояний и действий. Это определяет модель мира. Докладчик использует лемму моделирования, чтобы показать, что долгосрочное значение плавно изменяется в зависимости от параметров MDP, и засвидетельствовать, что подход, основанный на модели, может приблизить нас к оптимальному. Кроме того, он показывает обобщенные MDP.

Для настройки с несколькими агентами два агента могут хотеть одного направления или противоположных направлений, как соревнование. Оратор использует игру, чтобы проиллюстрировать это. А когнитивная иерархия, которая была предложена в одноразовых играх с нормальной формой, доказала свою точность при моделировании человеческих решений и управлении машинными решениями. Также следует обратить внимание на три тонкости: как рандомизировать последовательное поведение? Может ли игрок адаптироваться во время взаимодействия? Как справиться с огромным пространством стратегии?

Эффективное обучение с подкреплением:

Здесь игра была использована для иллюстрации обучения с подкреплением. Игра отличается от табличного обучения с подкреплением, все, что вам нужно сделать, это сыграть в игру и попытаться извлечь из этого урок. В этой игре пассажир хочет стать того же цвета, что и он сам. Он может выбрать одно из шести действий и перейти в это состояние. Так какова эффективность обучения с подкреплением? Сходимость лучше, чем не сходимость, но гарантии «в пределе» действительно слабы. Мы также должны учитывать скорость сходимости, сублинейное сожаление и оптимальное вознаграждение. Сложность выборки также учитывается компьютерными учеными.

После этого докладчик показывает определение MDP, которое дает предварительное условие, включая количество действий, состояний и коэффициент дисконтирования для учащегося, и учащийся должен выполнять действия в состояниях. . Каждый раз, когда учащийся находится в каком-либо состоянии, действия, предпринимаемые из этого состояния, почти оптимальны. Есть судья для этого действия, и если он хуже стандарта, то считается, что он допустил ошибку. По мере обучения он неизбежно будет делать ошибки, и мы можем позволить ему ошибаться. Но мы должны упомянуть об ограничении количества ошибок, которые должны содержать априорную вероятность, которая будет определять, сколько раз это произойдет. В этом процессе докладчик указывает, что мы должны балансировать разведку и эксплуатацию. Спикер также отмечает, что RL на основе моделей может быть эффективным, и разные предположения имеют разное поведение.

Затем докладчик показывает краткую историю оптимизма в RL. В истории в основном 3 алгоритма. Спикер акцентирует внимание на новейшем алгоритме: алгоритме R-max, который может достичь почти оптимального среднего вознаграждения за полиномиальное время. Согласно предыдущей работе [5], в R-MAX агент поддерживает полную, но, возможно, неточную модель среды. Агент действует на основе оптимальной политики. Причина, по которой он называется R-MAX, заключается в том, что все действия во всех состояниях возвращают максимально возможное вознаграждение. Он обновляется на основе наблюдений агента во время выполнения. R-MAX проще и более общий, чем предыдущие алгоритмы, он имеет встроенный механизм для решения дилеммы исследования и эксплуатации. То есть, если он не может быстро достичь неизвестного состояния, он почти оптимален.

Мы можем увидеть пример алгоритмов R-max в визуализации и в робототехнике. В имитационном эксперименте одна точка в углу хочет перейти в другое место, но есть некоторые препятствия, поэтому цель использования алгоритма R-max состоит в том, чтобы найти способ реализовать это. В эксперименте с робототехникой точка заменяется роботизированной собакой. Из приведенных выше примеров мы видим, что нам действительно нужно перейти от такой исчерпывающей модели к модели с выборкой. Для этого докладчик показывает три модели переходов в обучении и сразу переходит к новой модели обучения: KWIK, которая может предсказывать результаты или говорить «я не знаю» и наблюдать за ярлыками. Ошибок быть не должно, но он может сказать «Я не знаю» m раз (есть m вводов). Спикер на примере показывает механизм.

Вот как мы можем использовать это в обучении с подкреплением. Мы можем быстро изучить функцию перехода вознаграждения в среде. Это называется алгоритмом KWIK-Rmax. Спикер каталогизирует несколько классов, которые можно изучить с помощью KWIK, и демонстрирует их применение в эффективном обучении с подкреплением. Еще один вид класса, который мы быстро изучаем, - это перемещаемые модели действий. Это разбивает переходы на независимые от состояния результаты. Здесь используется роботизированный пример, аналогичный предыдущему эксперименту. В этом эксперименте робот также изменяется, выполняя действия, и есть два типа областей: песок и дерево. Он может выполнять только действия влево, вправо и вперед. Состояниями являются положение и ориентация, и цель - как можно быстрее добраться до коробки.

Оратор использует другую игру, задачу со скрытым битом, чтобы проиллюстрировать изучение неизвестной структуры в модели DBN. Сохраняя статистику парных корреляций, он может оценить необходимые вероятности и узнать, каким из них доверять. Модель в мире объектов пытается узнать, что происходит, когда объекты взаимодействуют. Это приводит нас к очень «человеческим» исследованиям - объектно-ориентированным MDP. Он обеспечивает сравнение, чтобы показать, как алгоритмы действуют в задаче такси. В задаче такси есть три характеристики: местоположение такси, местоположение пассажира и пункт назначения пассажира. Он используется для объяснения зависимости этих отношений, и если ученик знает это заранее, он может учиться быстрее. На следующем рисунке показаны результаты выполнения различных алгоритмов в задаче такси. Вдобавок в последних двух строках сравнивается с двумя типами людей.

На самом деле мы можем очень быстро и эффективно изучать модели, которые слишком велики для решения. Они слишком велики, чтобы заниматься планированием. Докладчик использует поиск по дереву, чтобы обсудить эту проблему. Поиск по дереву работает в прямом направлении от текущего состояния, но это не «эффективный независимый от состояния планировщик» из-за фактора ветвления, который называется разреженной выборкой. Поиск по дереву Монте-Карло выводит это на более высокий уровень, он узок и глубоко сфокусирован и многократно перемещается сверху.

Спикер показывает в видео пример обучения ходьбе, первое видео показывает, как научиться ходить против сильного ветра, а второе видео показывает, как как можно быстрее спускаться по лестнице. Все они сначала пытаются действовать и находят способ оптимизации, а затем выполняют итерации, чтобы приблизиться к оптимальному. Они призваны показать подход к оптимизации и выборку политики с большим количеством вознаграждений.

Границы:

Вот несколько эмпирических методов, к которым пришли авторы, и они показывают результаты обучения алгоритмов во время игр по сравнению с людьми. Есть набор функций, которые решают, как определять награды, и есть демонстрация, вознаграждение и наказание, доставляемые человеком, естественный язык и эволюция. Спикер также рассказывает о том, как максимизировать вознаграждение, чтобы оптимизировать его в игре по поеданию ящиков, которая включает в себя перемещение по сетке, чтобы добраться до коробки, открыть ее и сразу же съесть из коробки. Это нужно для того, чтобы найти у агента поведение, которое имеет тенденцию быстро учиться получать высокую награду. Он дает агенту тысячи шагов для изучения и определения того, какое максимальное вознаграждение он получит. Первоначально ему можно дать небольшое вознаграждение за доставку, которое поможет ему быть ближе к коробкам.

Также существует обратное обучение с подкреплением. Он дает примеры поведения и получает соответствующее вознаграждение. Стохастическая политика дает нам вероятность выбора каждого действия в каждом состоянии и находит функцию вознаграждения, которая максимизирует вероятность данных. Спикер также демонстрирует игру вождения и показывает, как люди зарабатывают награды. Это показывает, что лучше рассматривать «вознаграждения» как доказательство наличия функции вознаграждения, лежащей в основе.

Последний момент касается принципа портала. Видеоигры могут побудить нас решать очень сложные головоломки. Наша способность решать сложные проблемы основана на накоплении наших знаний.

Вывод:

Это видео дает нам краткое описание основных концепций. В нем используется множество классических экспериментов или экспериментов, которые проводил спикер, чтобы показать процесс обучения с подкреплением. Это также дает нам анализ различных алгоритмов и подчеркивает важность вознаграждения в обучении с подкреплением. Мы можем использовать теорию, которую предлагает говорящий, для реализации обучения с подкреплением.

Использованная литература:

[1] Мехриар Мохри, Афшин Ростамизаде, Амит Талвалкар (2012) Основы машинного обучения, MIT Press ISBN 9780262018258.
[2] https: // en. wikipedia.org/wiki/Unsupervised_learning
[3] Nature, 2015
[4] Саттон и Бартон 98
[5] Брафман, Ронен И. и Моше Тенненхольц. R-max - общий алгоритм с полиномиальным временем для почти оптимального обучения с подкреплением. Журнал исследований в области машинного обучения 3 октября (2002 г.): 213–231.

Автор: Шиксин Гу | Локализовано Synced Global Team: Юаньчао Ли