Вопросы по теме 'sarsa'
Как понять шаг RL в Keepaway (сравните с Sarsa)
В «Стоуне, Питере, Ричарде С. Саттоне и Грегори Кульманне. «Обучение с подкреплением для робокапа по футболу». Adaptive Behavior 13.3 (2005): 165-188.» Псевдокод RLstep кажется немного отличным от Sarsa (λ) , который, по словам авторов, реализует...
50 просмотров
schedule
11.06.2024
Зета-переменная SARSA(лямда)
Что представляют собой дзеты в методе критики? Я считаю, что он отслеживает пары «состояние-действие» и представляет трассировки приемлемости, которые являются временной записью состояний-действий, но что именно представляет собой дзета и как это...
40 просмотров
schedule
18.11.2023
Почему в книге Саттона по RL нет n-шагового алгоритма Q-обучения?
Я думаю, что я что-то путаю.
Я всегда думал, что: - 1-этапный TD в соответствии с политикой = Sarsa - 1-шаговый TD вне политики = Q-обучение
Таким образом, я заключаю: - n-этапный TD on-policy = n-шаговый Sarsa - n-шаговый TD вне политики =...
2377 просмотров
schedule
29.07.2022
Внедрение SARSA в Unity
Поэтому я использовал следующий код для реализации Q-learning в Unity:
using System;
using System.Collections;
using System.Collections.Generic;
using System.Linq;
using UnityEngine;
namespace QLearner
{
public class QLearnerScript
{...
168 просмотров
schedule
07.12.2022