Я новичок в Deep RL и хотел бы тренироваться в собственном тренажерном зале в RLLIB с алгоритмом PPO. Однако у меня возникают некоторые трудности с проверкой успешности настройки гиперпараметров. Помимо очевидной метрики Episode_reward_mean, которая должна вырасти, у нас есть много других графиков.
Меня особенно интересует, как энтропия должна развиваться во время успешного обучения. В моем случае это выглядит так:
Обычно он опускается ниже 0, а затем сходится. Я понимаю, что энтропия как часть функции потерь требует исследования и, следовательно, может ускорить обучение. Но почему он становится отрицательным? Разве он не всегда должен быть больше или равен 0?
Каковы еще характеристики успешного обучения (vf_explained_var, vf_loss, kl, ...)?