Вопросы по теме 'sarsa'

Как понять шаг RL в Keepaway (сравните с Sarsa)
В «Стоуне, Питере, Ричарде С. Саттоне и Грегори Кульманне. «Обучение с подкреплением для робокапа по футболу». Adaptive Behavior 13.3 (2005): 165-188.» Псевдокод RLstep кажется немного отличным от Sarsa (λ) , который, по словам авторов, реализует...
50 просмотров
schedule 11.06.2024

Зета-переменная SARSA(лямда)
Что представляют собой дзеты в методе критики? Я считаю, что он отслеживает пары «состояние-действие» и представляет трассировки приемлемости, которые являются временной записью состояний-действий, но что именно представляет собой дзета и как это...
40 просмотров

Почему в книге Саттона по RL нет n-шагового алгоритма Q-обучения?
Я думаю, что я что-то путаю. Я всегда думал, что: - 1-этапный TD в соответствии с политикой = Sarsa - 1-шаговый TD вне политики = Q-обучение Таким образом, я заключаю: - n-этапный TD on-policy = n-шаговый Sarsa - n-шаговый TD вне политики =...
2377 просмотров

Внедрение SARSA в Unity
Поэтому я использовал следующий код для реализации Q-learning в Unity: using System; using System.Collections; using System.Collections.Generic; using System.Linq; using UnityEngine; namespace QLearner { public class QLearnerScript {...
168 просмотров
schedule 07.12.2022