Я реализовал алгоритм обучения q, в котором агент пытается пройти как можно дальше. Я также использую мгновенные награды и награду за финальный эпизод. Когда агент сталкивается, я даю высокую награду за столкновение в отрицательном значении, и я не останавливаю эпизод. Это нормально, или эпизод нужно закончить, как только агент столкнется?
Нужно ли заканчивать эпизоды, когда происходит столкновение в обучении с подкреплением
Ответы (1)
В моем случае я определил минимальный порог вознаграждения, если он падает ниже, я заканчиваю эпизод.
- Случай 1: Завершение эпизода при неверном действии Если вы завершите игру до того, как накажете недопустимый ход, сеть не сможет понять, что ход был недействительным.
- Случай 2: Завершить эпизод после N недопустимых действий Это дает ему возможность выполнить несколько недопустимых действий до окончания эпизода. Это аналогично игре: у вас есть N жизней, чтобы пройти уровень, иначе вы проиграете игру.
- Случай 3: Игра вообще не завершается после недопустимых действий Это может привести к тому, что агент потеряется в окружающей среде, иногда выполняя только недопустимые действия, вам нужны хорошие условия завершения, чтобы остановить эпизод.
Надеюсь это поможет
person
Sushrut Tadwalkar
schedule
19.04.2019
В случае 3, что, если я дам агенту очень высокую отрицательную награду за каждое недопустимое действие и позволю эпизоду идти без остановки. Это хороший подход?
- person elemecro bots; 19.04.2019
Для обучения в ваших данных должно быть больше действительных ходов, чем недопустимых, поскольку вы пытаетесь научить сеть, как побеждать, а не проигрывать. Если неверные_движения_данные › действительные_движения_данные, что именно вы хотите, чтобы сеть узнала?
- person Sushrut Tadwalkar; 20.04.2019