Нужно ли заканчивать эпизоды, когда происходит столкновение в обучении с подкреплением

Я реализовал алгоритм обучения q, в котором агент пытается пройти как можно дальше. Я также использую мгновенные награды и награду за финальный эпизод. Когда агент сталкивается, я даю высокую награду за столкновение в отрицательном значении, и я не останавливаю эпизод. Это нормально, или эпизод нужно закончить, как только агент столкнется?

reinforcement-learning q-learning

elemecro bots 19.04.2019 источник

Ответы (1)

arrow_upward
0
arrow_downward

В моем случае я определил минимальный порог вознаграждения, если он падает ниже, я заканчиваю эпизод.

Случай 1: Завершение эпизода при неверном действии Если вы завершите игру до того, как накажете недопустимый ход, сеть не сможет понять, что ход был недействительным.
Случай 2: Завершить эпизод после N недопустимых действий Это дает ему возможность выполнить несколько недопустимых действий до окончания эпизода. Это аналогично игре: у вас есть N жизней, чтобы пройти уровень, иначе вы проиграете игру.
Случай 3: Игра вообще не завершается после недопустимых действий Это может привести к тому, что агент потеряется в окружающей среде, иногда выполняя только недопустимые действия, вам нужны хорошие условия завершения, чтобы остановить эпизод.

Надеюсь это поможет

Sushrut Tadwalkar 19.04.2019

comment

В случае 3, что, если я дам агенту очень высокую отрицательную награду за каждое недопустимое действие и позволю эпизоду идти без остановки. Это хороший подход? - elemecro bots; 19.04.2019

comment

Для обучения в ваших данных должно быть больше действительных ходов, чем недопустимых, поскольку вы пытаетесь научить сеть, как побеждать, а не проигрывать. Если неверные_движения_данные › действительные_движения_данные, что именно вы хотите, чтобы сеть узнала? - Sushrut Tadwalkar; 20.04.2019

Нужно ли заканчивать эпизоды, когда происходит столкновение в обучении с подкреплением

Ответы (1)

Похожие вопросы