Почему в книге Саттона по RL нет n-шагового алгоритма Q-обучения?

Я думаю, что я что-то путаю.

Я всегда думал, что:
- 1-этапный TD в соответствии с политикой = Sarsa
- 1-шаговый TD вне политики = Q-обучение

Таким образом, я заключаю: - n-этапный TD on-policy = n-шаговый Sarsa
- n-шаговый TD вне политики = n-шаговый Q-learning

Однако в книге Саттона он никогда не вводит n-шаговое Q-обучение, но он вводит n-шаговую неполитическую сарсу. Теперь я чувствую себя сбитым с толку.

Может ли кто-нибудь помочь мне с именем?

Ссылка на книгу Саттона (Сарса, не связанная с политикой, на стр. 149)


person siva    schedule 13.04.2018    source источник


Ответы (1)


Я всегда думал, что:

  • 1-шаговый ТД по политике = Сарса
  • 1-этапный TD вне политики = Q-обучение

Это в основном верно, но не вся история. Q-обучение — это версия нестандартного одноэтапного обучения с разницей во времени, но не только это; он специально обновляет Q-значения для политики, которая является жадной по отношению к текущим оценкам. Изучение ценности вне политики может быть более общим, это может быть изучение любой целевой политики; Q-обучение является более конкретным, оно касается использования жадной политики в качестве целевой политики.

Наивное расширение Q-обучения до n шагов больше не будет правильным, потому что это не работает для алгоритмов вне политики (таких как Q-обучение). Вам придется каким-то образом исправить «неполитику»; Один из способов сделать это — выборка по важности. Когда вы вводите это в более общем виде (для любой возможной целевой политики), вы получаете алгоритм на той странице, которую вы упомянули, которую они называют там Сарса с nшагом вне политики. Я полагаю, что конкретный пример этого алгоритма, где целевая политика pi является жадной политикой по отношению к Q, можно интуитивно понять как «правильную» версию n-шагового Q-обучения.

person Dennis Soemers    schedule 13.04.2018