На данный момент у этой проблемы, похоже, нет единого, универсального и однозначного ответа. Может потому, что это не проблема?
Ваше предложение выбрать наилучшее значение Q для юридических действий на самом деле является одним из предлагаемых способов решения этой проблемы. Для методов градиентов политики вы можете добиться аналогичного результата, маскируя незаконные действия и правильно увеличивая вероятности других действий.
Другой подход - дать отрицательное вознаграждение за выбор незаконного действия - или игнорировать выбор и не вносить никаких изменений в окружающую среду, возвращая ту же награду, что и раньше. В качестве одного из моих личных опытов (метод Q Learning) я выбрал последний, и агент узнал, что ему нужно узнать, но время от времени он использовал незаконные действия как действие «бездействия». Для меня это не было проблемой, но отрицательные награды, вероятно, устранят такое поведение.
Как видите, эти решения не меняются и не различаются, когда действия «перекрываются».
Отвечая на ваш вопрос в комментариях - я не верю, что вы можете обучить агента в описанных условиях без того, чтобы он изучил правила законных / незаконных действий. Для этого потребуется, например, что-то вроде отдельных сетей для каждого набора юридических действий, и это не похоже на лучшую идею (особенно если существует множество возможных наборов юридических действий).
Но сложно ли усвоить эти правила?
Вы должны сами ответить на некоторые вопросы - является ли условие, которое делает действие незаконным, трудным для выражения / формулирования? Это, конечно, зависит от среды, но я бы сказал, что это не так большую часть времени трудно выразить, и агенты просто изучают их во время обучения. Если это сложно, предоставляет ли ваша среда достаточно информации о состоянии?
person
Filip O.
schedule
10.05.2018