Все алгоритмы обучения с подкреплением, о которых я читал, обычно применяются к одному агенту, который выполняет фиксированное количество действий. Существуют ли какие-либо алгоритмы обучения с подкреплением для принятия решения с учетом переменного количества действий? Например, как бы вы применили алгоритм RL в компьютерной игре, где игрок управляет N солдатами, и у каждого солдата есть случайное количество действий в зависимости от его состояния? Вы не можете сформулировать фиксированное количество действий для лица, принимающего глобальные решения (то есть «генерала»), потому что доступные действия постоянно меняются по мере создания и убийства солдат. И вы не можете сформулировать фиксированное количество действий на уровне солдата, поскольку действия солдата условны в зависимости от его ближайшего окружения. Если солдат не видит противников, он может только ходить, тогда как если он видит 10 противников, у него есть 10 новых возможных действий, атакуя 1 из 10 противников.
Обучение с подкреплением с помощью переменных действий
Ответы (3)
В том, что вы описываете, нет ничего необычного. Обучение с подкреплением - это способ найти функцию ценности Марковского процесса принятия решений. В MDP каждое состояние имеет свой собственный набор действий. Чтобы продолжить работу с приложением обучения с подкреплением, вы должны четко определить, какие состояния, действия и награды связаны с вашей проблемой.
Если у вас есть несколько действий для каждого солдата, которые доступны или нет в зависимости от некоторых условий, вы все равно можете смоделировать это как выбор из фиксированного набора действий. Например:
- Создайте «ценность полезности» для каждого из полного набора действий для каждого солдата.
- Выберите наиболее ценное действие, игнорируя те действия, которые недоступны в данный момент.
Если у вас есть несколько возможных целей, применяется тот же принцип, за исключением того, что на этот раз вы моделируете свою функцию полезности, чтобы принять обозначение цели в качестве дополнительного параметра и запустить функцию оценки несколько раз (по одному для каждой цели). Вы выбираете цель с наибольшей «полезностью атаки».
В пространствах действий непрерывной области политика NN часто выводит среднее значение и / или дисперсию, из которых затем вы выбираете действие, предполагая, что оно следует определенному распределению.