Вопросы по теме 'policy-gradient-descent'
Как накопить убыток по мини-партиям, а затем рассчитать градиент
Мой главный вопрос; Является ли усреднение потерь тем же самым, что и усреднение градиента, и как я могу накапливать свои потери по мини-партиям, а затем вычислять свой градиент?
Я пытался реализовать градиент политики в Tensorflow и столкнулся с...
745 просмотров
schedule
17.06.2022
Ray - RLlib - Ошибка с настраиваемым env - пространство непрерывного действия - DDPG - обучение автономному опыту?
Ошибка при использовании автономного режима для DDPG. размеры настраиваемой среды (пространство действий и пространство состояний) кажутся несовместимыми с тем, что ожидается в обучающем модуле DDPG RLLIB.
Ubuntu, версия Ray 0.7 (последняя версия...
831 просмотров
schedule
27.08.2022
Алгоритм PPO сводится только к одному действию
Я взял несколько эталонных реализаций алгоритма PPO и пытаюсь создать агента, который может играть в космических захватчиков. К сожалению, начиная со второго испытания (после обучения актера и критика N Networks в первый раз) распределение...
175 просмотров
schedule
14.08.2023