Понимание графиков тензорной доски для PPO в RLLIB

Я новичок в Deep RL и хотел бы тренироваться в собственном тренажерном зале в RLLIB с алгоритмом PPO. Однако у меня возникают некоторые трудности с проверкой успешности настройки гиперпараметров. Помимо очевидной метрики Episode_reward_mean, которая должна вырасти, у нас есть много других графиков.

Меня особенно интересует, как энтропия должна развиваться во время успешного обучения. В моем случае это выглядит так:

entropy.jpg

Обычно он опускается ниже 0, а затем сходится. Я понимаю, что энтропия как часть функции потерь требует исследования и, следовательно, может ускорить обучение. Но почему он становится отрицательным? Разве он не всегда должен быть больше или равен 0?

Каковы еще характеристики успешного обучения (vf_explained_var, vf_loss, kl, ...)?

tensorflow reinforcement-learning rllib

Carlz 13.03.2020 источник

Ответы (1)

arrow_upward
1
arrow_downward

Если ваше пространство действий непрерывно, энтропия может быть отрицательной, потому что дифференциальная энтропия может быть отрицательной.

В идеале вы хотите, чтобы энтропия уменьшалась медленно и плавно в процессе обучения, поскольку агент торгует разведкой в пользу эксплуатации.

Что касается показателей vf_ *, полезно знать, что они означают.

В методах градиента политики может быть полезно уменьшить дисперсию оценок развертывания с помощью функции ценности - параметризованной нейронной сетью - для оценки вознаграждений, которые появятся в более отдаленном будущем (проверьте статья о PPO для некоторых математических расчетов на стр. 5).

vf_explained_var - это объясненный вариант будущих вознаграждений с помощью функции ценности. Вы хотите, чтобы это значение было выше, если это возможно, и оно достигнет 1; однако, если в вашей среде присутствует случайность, маловероятно, что это действительно достигнет 1. vf_loss - это ошибка, которую вызывает ваша функция значения; в идеале это значение уменьшится до 0, хотя это не всегда возможно (из-за случайности). kl - это разница между вашей старой и новой стратегиями на каждом временном шаге: вы хотите, чтобы она плавно уменьшалась во время тренировки, чтобы указать на сходимость.

Charlie Hou 20.08.2020

Понимание графиков тензорной доски для PPO в RLLIB

Ответы (1)

Похожие вопросы