Ссылаясь на книгу RL Саттона и Барто, 2-е изд., глава 3, стр. 60.
Вот мир сетки 5x5 и значение каждого состояния: gridoworld со значениями состояния
Используя уравнение резервного копирования Беллмана, можно рассчитать значение каждого состояния:
Вот расчет для средней (3,3) ячейки:
Используя значения из верхней, нижней, левой и правой ячеек, а также случайную политику с pi = 1/4
и все вероятности перехода p(s',r|s,a) = 1
, расчет выполняется.
А как насчет угловых ячеек?
Скажем, 3.3 вверху слева. Как это рассчитать?
Использование только нижнего (1,5) и правого (8,8) значений не работает. Также необходимо учитывать, что когда агент выполняет верхнее и левое действия, он остается в сетке, но получает вознаграждение -1.
Не могли бы вы помочь мне рассчитать значения угловых ячеек? Чтение реализаций github тоже не помогает.