Я думаю, что я что-то путаю.
Я всегда думал, что:
- 1-этапный TD в соответствии с политикой = Sarsa
- 1-шаговый TD вне политики = Q-обучение
Таким образом, я заключаю: - n-этапный TD on-policy = n-шаговый Sarsa
- n-шаговый TD вне политики = n-шаговый Q-learning
Однако в книге Саттона он никогда не вводит n-шаговое Q-обучение, но он вводит n-шаговую неполитическую сарсу. Теперь я чувствую себя сбитым с толку.
Может ли кто-нибудь помочь мне с именем?
Ссылка на книгу Саттона (Сарса, не связанная с политикой, на стр. 149)