Функция вознаграждения в MIT Deep Traffic Challenge?

Получив общее представление об архитектуре, мне стало интересно, что именно представляет собой функция вознаграждения, предоставляемая Средой.

Я также нашел этот javascript Codebase, который на самом деле не помогает мое понимание тоже.

machine-learning reinforcement-learning reward

mrk 22.06.2018 источник

arrow_upward
1
arrow_downward

Наградой является масштабированная средняя скорость в интервале: [-3, 3].

Реализация среды deeptraffic находится в этом файле: https://selfdrivingcars.mit.edu/deeptraffic/gameopt.js

Я пытаюсь сделать его читабельным. Вот вариант WIP: https://github.com/mljack/deeptraffic/blob/master/gameopt.js

    var reward = (avgSpeedMeasurement - 60) / 20;

mljack 18.07.2018

comment

Просто чтобы сделать это полным. Как видно из приведенного выше уравнения, отсечения вознаграждения не происходит. - mrk; 20.07.2018