Как узнать расстояние, пройденное агентом «Гуманоид-v2» после тренировки?

Я тренировал Humanoid-v2 (https://github.com/openai/gym/wiki/Humanoid-V1) ходить. Награды увеличиваются во время тренировки. Но мне нужна еще одна матрица эффективности, которая сообщает мне, как далеко продвинулся агент?

Есть 376 наблюдений за этим агентом (https://github.com/openai/gym/wiki/Humanoid-V1). Какие значения соответствуют позиции x, y, z, указанной в строке 27 XML-файла агента: https://github.com/openai/gym/blob/master/gym/envs/mujoco/assets/humanoid.xml#L27?

Спасибо


person Beginner    schedule 11.12.2018    source источник


Ответы (1)


  • Пусть начальная позиция будет (x1, y1, z1), а позиция после шага будет (x2, y2, z2)
  • Расстояние, пройденное агентом за шаг, будет следующим:

dist = tf.add (tf.squared_difference (x2, x1), tf.squared_difference (y2, y1), tf.squared_difference (z2, z1))

  • Просуммируйте расстояния в памяти до конца эпизода.
person zishan ahmed    schedule 12.12.2018
comment
Спасибо за ответы. Да, я могу это сделать. Но мой вопрос из тех 376 наблюдений, какое из них соответствует значениям x, y, z. - person Beginner; 12.12.2018