Как понять шаг RL в Keepaway (сравните с Sarsa)

В «Стоуне, Питере, Ричарде С. Саттоне и Грегори Кульманне. «Обучение с подкреплением для робокапа по футболу». Adaptive Behavior 13.3 (2005): 165-188.» Псевдокод RLstep кажется немного отличным от Sarsa (λ) , который, по словам авторов, реализует RLStep.

Вот псевдокод шага RL, а вот Псевдокод Sarsa(лямбда).

Области путаницы:

  • Строка 10 в псевдокоде Sarsa(λ) обновляет значение Q для каждой пары состояние-действие после добавления 1 к e(s,a). Но в псевдокоде шага RL обновление трассировки приемлемости (строка 19) не происходит до тех пор, пока не будет обновлено значение (строка 17).

  • Строки 18 и 19 в RLstep сильно отличаются от псевдокода Sarsa(λ).

  • Что делают строки 20-25 с трассировкой приемлемости?


person user186199    schedule 21.10.2016    source источник