Я играл с вызовом MIT DeepTraffic Challenge, а также просмотр лекции и чтение слайдов
Получив общее представление об архитектуре, мне стало интересно, что именно представляет собой функция вознаграждения, предоставляемая Средой.
- Это то же самое, что и ввод ячейки сетки (максимальная скорость движения)?
- И используют ли они отсечение вознаграждения или нет?
Я также нашел этот javascript Codebase, который на самом деле не помогает мое понимание тоже.