Я пытался решить среду OpenAI MountainCarContinuous-v0
некоторое время, но я застрял.
Потратив недели на то, чтобы решить ее самостоятельно, теперь я просто пытаюсь понять чужой код. Вот ссылка, которую человек использовал для решения проблемы окружающей среды. В частности, мне нужна помощь с функцией потерь.
В коде GitHub записывается как
self.norm_dist = tf.contrib.distributions.Normal(self.mu, self.sigma)
self.loss = -tf.log(self.norm_dist.prob(self.action_train) + 1e-5) * self.advantage_train - self.lamb * self.norm_dist.entropy()
Что делает эта функция потерь? Если бы вы могли описать это простыми словами, это очень помогло бы мне.