Вопросы по теме 'policy-gradient-descent'

Как накопить убыток по мини-партиям, а затем рассчитать градиент
Мой главный вопрос; Является ли усреднение потерь тем же самым, что и усреднение градиента, и как я могу накапливать свои потери по мини-партиям, а затем вычислять свой градиент? Я пытался реализовать градиент политики в Tensorflow и столкнулся с...
745 просмотров

Ray - RLlib - Ошибка с настраиваемым env - пространство непрерывного действия - DDPG - обучение автономному опыту?
Ошибка при использовании автономного режима для DDPG. размеры настраиваемой среды (пространство действий и пространство состояний) кажутся несовместимыми с тем, что ожидается в обучающем модуле DDPG RLLIB. Ubuntu, версия Ray 0.7 (последняя версия...
831 просмотров

Алгоритм PPO сводится только к одному действию
Я взял несколько эталонных реализаций алгоритма PPO и пытаюсь создать агента, который может играть в космических захватчиков. К сожалению, начиная со второго испытания (после обучения актера и критика N Networks в первый раз) распределение...
175 просмотров