В «Стоуне, Питере, Ричарде С. Саттоне и Грегори Кульманне. «Обучение с подкреплением для робокапа по футболу». Adaptive Behavior 13.3 (2005): 165-188.» Псевдокод RLstep кажется немного отличным от Sarsa (λ) , который, по словам авторов, реализует RLStep.
Вот псевдокод шага RL, а вот Псевдокод Sarsa(лямбда).
Области путаницы:
Строка 10 в псевдокоде Sarsa(λ) обновляет значение Q для каждой пары состояние-действие после добавления 1 к
e(s,a)
. Но в псевдокоде шага RL обновление трассировки приемлемости (строка 19) не происходит до тех пор, пока не будет обновлено значение (строка 17).Строки 18 и 19 в RLstep сильно отличаются от псевдокода Sarsa(λ).
Что делают строки 20-25 с трассировкой приемлемости?