Обучение с подкреплением с помощью переменных действий

Все алгоритмы обучения с подкреплением, о которых я читал, обычно применяются к одному агенту, который выполняет фиксированное количество действий. Существуют ли какие-либо алгоритмы обучения с подкреплением для принятия решения с учетом переменного количества действий? Например, как бы вы применили алгоритм RL в компьютерной игре, где игрок управляет N солдатами, и у каждого солдата есть случайное количество действий в зависимости от его состояния? Вы не можете сформулировать фиксированное количество действий для лица, принимающего глобальные решения (то есть «генерала»), потому что доступные действия постоянно меняются по мере создания и убийства солдат. И вы не можете сформулировать фиксированное количество действий на уровне солдата, поскольку действия солдата условны в зависимости от его ближайшего окружения. Если солдат не видит противников, он может только ходить, тогда как если он видит 10 противников, у него есть 10 новых возможных действий, атакуя 1 из 10 противников.


person Cerin    schedule 07.03.2011    source источник
comment
Пожалуйста, в следующий раз, когда у вас возникнет вопрос о RL, задайте его на Artificial Intelligence SE. Там тоже задавались вопросы, похожие на этот. См., Например, это.   -  person nbro    schedule 12.12.2020
comment
Бывают ситуации, когда агенты могут столкнуться с набором возможных действий, и где последовательность действий имеет значение. Как нам действовать в таких случаях?   -  person Hermes Morales    schedule 23.06.2021


Ответы (3)


В том, что вы описываете, нет ничего необычного. Обучение с подкреплением - это способ найти функцию ценности Марковского процесса принятия решений. В MDP каждое состояние имеет свой собственный набор действий. Чтобы продолжить работу с приложением обучения с подкреплением, вы должны четко определить, какие состояния, действия и награды связаны с вашей проблемой.

person Don Reba    schedule 28.07.2011

Если у вас есть несколько действий для каждого солдата, которые доступны или нет в зависимости от некоторых условий, вы все равно можете смоделировать это как выбор из фиксированного набора действий. Например:

  • Создайте «ценность полезности» для каждого из полного набора действий для каждого солдата.
  • Выберите наиболее ценное действие, игнорируя те действия, которые недоступны в данный момент.

Если у вас есть несколько возможных целей, применяется тот же принцип, за исключением того, что на этот раз вы моделируете свою функцию полезности, чтобы принять обозначение цели в качестве дополнительного параметра и запустить функцию оценки несколько раз (по одному для каждой цели). Вы выбираете цель с наибольшей «полезностью атаки».

person mikera    schedule 07.03.2011
comment
Как я уже сказал, у солдат также есть переменное количество действий. Что вы имеете в виду, делая цель атаки параметром? - person Cerin; 07.03.2011
comment
Я имею в виду: пусть алгоритм RL принимает некоторую информацию о цели или конкретном действии, которое вы рассматриваете в качестве дополнительных входных данных. Затем вы можете применить его к нескольким целям и / или действиям по мере необходимости. Вы просто повторно запускаете алгоритм с другой информацией о целях и / или действиях для каждой из рассматриваемых вами. - person mikera; 07.03.2011

В пространствах действий непрерывной области политика NN часто выводит среднее значение и / или дисперсию, из которых затем вы выбираете действие, предполагая, что оно следует определенному распределению.

person Bernardo Cortez    schedule 07.05.2020