Как понять шаг RL в Keepaway (сравните с Sarsa)

В «Стоуне, Питере, Ричарде С. Саттоне и Грегори Кульманне. «Обучение с подкреплением для робокапа по футболу». Adaptive Behavior 13.3 (2005): 165-188.» Псевдокод RLstep кажется немного отличным от Sarsa (λ) , который, по словам авторов, реализует RLStep.

Вот псевдокод шага RL, а вот Псевдокод Sarsa(лямбда).

Области путаницы:

Строка 10 в псевдокоде Sarsa(λ) обновляет значение Q для каждой пары состояние-действие после добавления 1 к e(s,a). Но в псевдокоде шага RL обновление трассировки приемлемости (строка 19) не происходит до тех пор, пока не будет обновлено значение (строка 17).
Строки 18 и 19 в RLstep сильно отличаются от псевдокода Sarsa(λ).
Что делают строки 20-25 с трассировкой приемлемости?

reinforcement-learning sarsa

user186199 21.10.2016 источник

Как понять шаг RL в Keepaway (сравните с Sarsa)

Похожие вопросы