Набор действий, зависящих от состояния, в обучении с подкреплением

Как люди справляются с проблемами, когда судебные иски в разных штатах различаются? В моем случае у меня всего около 10 действий, юридические действия не перекрываются, что означает, что в некоторых состояниях одни и те же 3 состояния всегда являются законными, и эти состояния никогда не являются законными в других типах состояний.

Мне также интересно посмотреть, будут ли решения другими, если бы судебные иски совпадали.

Что касается обучения Q (где моя сеть дает мне значения для пар состояние / действие), я подумал, может быть, я мог бы просто быть осторожным с тем, какое значение Q выбрать, когда я конструирую целевое значение. (т.е. вместо того, чтобы выбирать максимум, я выбираю максимум среди юридических действий ...)

Для методов типа Policy-Gradient я менее уверен в том, какая настройка подходит. Можно ли просто замаскировать выходной слой при вычислении потерь?


person Edmonds Karp    schedule 25.04.2018    source источник


Ответы (4)


За последние два года есть две тесно связанных работы:

[1] Бутилье, Крейг и др. Планирование и обучение с помощью наборов стохастических действий. Препринт arXiv arXiv: 1805.02363 (2018).

[2] Чандак, Яш и др. Обучение с подкреплением, когда не все действия доступны. AAAI. 2020.

person skypitcher    schedule 12.08.2020

На данный момент у этой проблемы, похоже, нет единого, универсального и однозначного ответа. Может потому, что это не проблема?

Ваше предложение выбрать наилучшее значение Q для юридических действий на самом деле является одним из предлагаемых способов решения этой проблемы. Для методов градиентов политики вы можете добиться аналогичного результата, маскируя незаконные действия и правильно увеличивая вероятности других действий.

Другой подход - дать отрицательное вознаграждение за выбор незаконного действия - или игнорировать выбор и не вносить никаких изменений в окружающую среду, возвращая ту же награду, что и раньше. В качестве одного из моих личных опытов (метод Q Learning) я выбрал последний, и агент узнал, что ему нужно узнать, но время от времени он использовал незаконные действия как действие «бездействия». Для меня это не было проблемой, но отрицательные награды, вероятно, устранят такое поведение.

Как видите, эти решения не меняются и не различаются, когда действия «перекрываются».

Отвечая на ваш вопрос в комментариях - я не верю, что вы можете обучить агента в описанных условиях без того, чтобы он изучил правила законных / незаконных действий. Для этого потребуется, например, что-то вроде отдельных сетей для каждого набора юридических действий, и это не похоже на лучшую идею (особенно если существует множество возможных наборов юридических действий).

Но сложно ли усвоить эти правила?

Вы должны сами ответить на некоторые вопросы - является ли условие, которое делает действие незаконным, трудным для выражения / формулирования? Это, конечно, зависит от среды, но я бы сказал, что это не так большую часть времени трудно выразить, и агенты просто изучают их во время обучения. Если это сложно, предоставляет ли ваша среда достаточно информации о состоянии?

person Filip O.    schedule 10.05.2018

Не уверен, правильно ли я понял ваш вопрос, но если вы имеете в виду, что в определенных состояниях некоторые действия невозможны, вы просто отражаете это в функции вознаграждения (большое отрицательное значение). Вы даже можете решить завершить эпизод, если неясно, к какому состоянию приведет незаконное действие. Затем агент должен узнать, что эти действия нежелательны в определенных состояниях.

В режиме исследования агент по-прежнему может предпринять незаконные действия. Однако в режиме эксплуатации следует их избегать.

person Jan K    schedule 25.04.2018
comment
См. Мой комментарий к другому ответу. Вы предлагаете агенту также изучить правила игры, что усложняет задачу. Есть ли способы каким-то образом передать эту информацию агенту без необходимости ее изучения? - person Edmonds Karp; 26.04.2018

Недавно я создал агент DDQ для connect-four, и мне пришлось решить эту проблему. Каждый раз, когда выбирался столбец, который уже был заполнен жетонами, я устанавливал награду, эквивалентную проигрышу в игре. В моем случае это было -100, и это сработало.

В четвертом соединении разрешение незаконного хода (фактический пропуск хода) в некоторых случаях может быть выгодным для игрока. Вот почему я установил награду равную проигрышу, а не меньшее отрицательное число.

Поэтому, если вы устанавливаете отрицательное вознаграждение больше, чем проигрыш, вам придется подумать в своей области, каковы последствия допущения незаконных ходов при разведке.

person Bert Kellerman    schedule 25.04.2018
comment
Но это, кажется, предполагает, что агент также должен изучить правила игры, что усложняет задачу. Есть ли способы каким-то образом передать эту информацию агенту без необходимости ее изучения? - person Edmonds Karp; 26.04.2018