Статьи по тематике policy-gradient-descent

Вопросы по теме 'policy-gradient-descent'

Как накопить убыток по мини-партиям, а затем рассчитать градиент

Мой главный вопрос; Является ли усреднение потерь тем же самым, что и усреднение градиента, и как я могу накапливать свои потери по мини-партиям, а затем вычислять свой градиент? Я пытался реализовать градиент политики в Tensorflow и столкнулся с...

745 просмотров

17.06.2022

Ray - RLlib - Ошибка с настраиваемым env - пространство непрерывного действия - DDPG - обучение автономному опыту?

Ошибка при использовании автономного режима для DDPG. размеры настраиваемой среды (пространство действий и пространство состояний) кажутся несовместимыми с тем, что ожидается в обучающем модуле DDPG RLLIB. Ubuntu, версия Ray 0.7 (последняя версия...

831 просмотров

offline reinforcement-learning ray policy-gradient-descent

27.08.2022

Алгоритм PPO сводится только к одному действию

Я взял несколько эталонных реализаций алгоритма PPO и пытаюсь создать агента, который может играть в космических захватчиков. К сожалению, начиная со второго испытания (после обучения актера и критика N Networks в первый раз) распределение...

175 просмотров

artificial-intelligence reinforcement-learning policy-gradient-descent

14.08.2023

Вопросы по теме 'policy-gradient-descent'

Похожие вопросы