Нужно ли заканчивать эпизоды, когда происходит столкновение в обучении с подкреплением

Я реализовал алгоритм обучения q, в котором агент пытается пройти как можно дальше. Я также использую мгновенные награды и награду за финальный эпизод. Когда агент сталкивается, я даю высокую награду за столкновение в отрицательном значении, и я не останавливаю эпизод. Это нормально, или эпизод нужно закончить, как только агент столкнется?


person elemecro bots    schedule 19.04.2019    source источник


Ответы (1)


В моем случае я определил минимальный порог вознаграждения, если он падает ниже, я заканчиваю эпизод.

  • Случай 1: Завершение эпизода при неверном действии Если вы завершите игру до того, как накажете недопустимый ход, сеть не сможет понять, что ход был недействительным.
  • Случай 2: Завершить эпизод после N недопустимых действий Это дает ему возможность выполнить несколько недопустимых действий до окончания эпизода. Это аналогично игре: у вас есть N жизней, чтобы пройти уровень, иначе вы проиграете игру.
  • Случай 3: Игра вообще не завершается после недопустимых действий Это может привести к тому, что агент потеряется в окружающей среде, иногда выполняя только недопустимые действия, вам нужны хорошие условия завершения, чтобы остановить эпизод.

Надеюсь это поможет

person Sushrut Tadwalkar    schedule 19.04.2019
comment
В случае 3, что, если я дам агенту очень высокую отрицательную награду за каждое недопустимое действие и позволю эпизоду идти без остановки. Это хороший подход? - person elemecro bots; 19.04.2019
comment
Для обучения в ваших данных должно быть больше действительных ходов, чем недопустимых, поскольку вы пытаетесь научить сеть, как побеждать, а не проигрывать. Если неверные_движения_данные › действительные_движения_данные, что именно вы хотите, чтобы сеть узнала? - person Sushrut Tadwalkar; 20.04.2019