Функция вознаграждения в MIT Deep Traffic Challenge?

Я играл с вызовом MIT DeepTraffic Challenge, а также просмотр лекции и чтение слайдов

Получив общее представление об архитектуре, мне стало интересно, что именно представляет собой функция вознаграждения, предоставляемая Средой.

  1. Это то же самое, что и ввод ячейки сетки (максимальная скорость движения)?
  2. И используют ли они отсечение вознаграждения или нет?

Я также нашел этот javascript Codebase, который на самом деле не помогает мое понимание тоже.


person mrk    schedule 22.06.2018    source источник


Ответы (1)


Наградой является масштабированная средняя скорость в интервале: [-3, 3].

Реализация среды deeptraffic находится в этом файле: https://selfdrivingcars.mit.edu/deeptraffic/gameopt.js

Я пытаюсь сделать его читабельным. Вот вариант WIP: https://github.com/mljack/deeptraffic/blob/master/gameopt.js

    var reward = (avgSpeedMeasurement - 60) / 20;
person mljack    schedule 18.07.2018
comment
Просто чтобы сделать это полным. Как видно из приведенного выше уравнения, отсечения вознаграждения не происходит. - person mrk; 20.07.2018