Обучение с подкреплением с помощью переменных действий

Все алгоритмы обучения с подкреплением, о которых я читал, обычно применяются к одному агенту, который выполняет фиксированное количество действий. Существуют ли какие-либо алгоритмы обучения с подкреплением для принятия решения с учетом переменного количества действий? Например, как бы вы применили алгоритм RL в компьютерной игре, где игрок управляет N солдатами, и у каждого солдата есть случайное количество действий в зависимости от его состояния? Вы не можете сформулировать фиксированное количество действий для лица, принимающего глобальные решения (то есть «генерала»), потому что доступные действия постоянно меняются по мере создания и убийства солдат. И вы не можете сформулировать фиксированное количество действий на уровне солдата, поскольку действия солдата условны в зависимости от его ближайшего окружения. Если солдат не видит противников, он может только ходить, тогда как если он видит 10 противников, у него есть 10 новых возможных действий, атакуя 1 из 10 противников.

machine-learning reinforcement-learning planning

Cerin 07.03.2011 источник

comment

Пожалуйста, в следующий раз, когда у вас возникнет вопрос о RL, задайте его на Artificial Intelligence SE. Там тоже задавались вопросы, похожие на этот. См., Например, это. - nbro 12.12.2020

comment

Бывают ситуации, когда агенты могут столкнуться с набором возможных действий, и где последовательность действий имеет значение. Как нам действовать в таких случаях? - Hermes Morales 23.06.2021

Ответы (3)

arrow_upward
4
arrow_downward

В том, что вы описываете, нет ничего необычного. Обучение с подкреплением - это способ найти функцию ценности Марковского процесса принятия решений. В MDP каждое состояние имеет свой собственный набор действий. Чтобы продолжить работу с приложением обучения с подкреплением, вы должны четко определить, какие состояния, действия и награды связаны с вашей проблемой.

Don Reba 28.07.2011

arrow_upward
1
arrow_downward

Если у вас есть несколько действий для каждого солдата, которые доступны или нет в зависимости от некоторых условий, вы все равно можете смоделировать это как выбор из фиксированного набора действий. Например:

Создайте «ценность полезности» для каждого из полного набора действий для каждого солдата.
Выберите наиболее ценное действие, игнорируя те действия, которые недоступны в данный момент.

Если у вас есть несколько возможных целей, применяется тот же принцип, за исключением того, что на этот раз вы моделируете свою функцию полезности, чтобы принять обозначение цели в качестве дополнительного параметра и запустить функцию оценки несколько раз (по одному для каждой цели). Вы выбираете цель с наибольшей «полезностью атаки».

mikera 07.03.2011

comment

Как я уже сказал, у солдат также есть переменное количество действий. Что вы имеете в виду, делая цель атаки параметром? - Cerin; 07.03.2011

comment

Я имею в виду: пусть алгоритм RL принимает некоторую информацию о цели или конкретном действии, которое вы рассматриваете в качестве дополнительных входных данных. Затем вы можете применить его к нескольким целям и / или действиям по мере необходимости. Вы просто повторно запускаете алгоритм с другой информацией о целях и / или действиях для каждой из рассматриваемых вами. - mikera; 07.03.2011

arrow_upward
0
arrow_downward

В пространствах действий непрерывной области политика NN часто выводит среднее значение и / или дисперсию, из которых затем вы выбираете действие, предполагая, что оно следует определенному распределению.

Bernardo Cortez 07.05.2020

Обучение с подкреплением с помощью переменных действий

Ответы (3)

Похожие вопросы