Как перечислить возможные состояния-преемники для каждого состояния в спортзале OpenAI? (строго для обычных МДП)

Есть ли способ перебрать каждое состояние, заставить среду перейти в это состояние, а затем сделать шаг, а затем использовать возвращенный «информационный» словарь, чтобы увидеть, каковы все возможные состояния-преемники?

Или еще более простой способ восстановить все возможные состояния-преемники для каждого состояния, возможно, где-то спрятанное?

Я видел в Интернете, что что-то под названием MuJoKo или что-то в этом роде имеет функцию set_state, но я не хочу создавать новую среду, я просто хочу установить состояние тех, которые уже предоставлены тренажерным залом openAi.

Контекст: попытка реализовать итерацию значений топологического порядка, что требует создания графа, в котором каждое состояние имеет границу с любым состоянием, в которое любое действие может когда-либо его перейти.

Я понимаю, что, очевидно, в некоторых играх этого просто нет, но для тех, где это есть, есть ли способ?

(Кроме метода грубой силы для запуска игры и выполнения каждого шага, который я еще не предпринял, в каком бы состоянии я ни приземлился, пока не достигну всех состояний и не увижу все, что в зависимости от игры может занять вечность)

Я впервые использую тренажерный зал OpenAi, поэтому, пожалуйста, объясните как можно подробнее. Например, я понятия не имею, что такое Wrappers.

Спасибо!




Ответы (1)


Нет, в спортзале OpenAI нет метода для предоставления всех возможных состояний-преемников. В общем, это своего рода смысл создания алгоритма с OpenAI gym. Вы обучаете агента узнавать, каковы результаты его действий; если он может заглянуть в будущее и знать, каковы результаты своих действий, это как бы побеждает цель.

Описанный вами метод грубой силы, вероятно, самый простой способ выполнить то, что вы описываете.

person R.F. Nelson    schedule 13.12.2018