Qlearning Эпсилон-жадное исследование: исправлен распад Эпсилон X

Я учу агента выбираться из лабиринта, собирая все яблоки на своем пути, с помощью Qlearning.

Я читал, что можно оставить фиксированный эпсилон или выбрать эпсилон и затухать с течением времени.

Я не смог найти преимущества или недостатки каждого подхода, я хотел бы услышать больше, если вы поможете мне понять, что мне следует использовать.

Спасибо!


person Catarina Nogueira    schedule 09.11.2019    source источник


Ответы (1)


Я предполагаю, что вы имеете в виду эпсилон как «исследование эпсилон-зеленого». Цель этого параметра — контролировать, насколько ваш агент верит в свою текущую политику. При большом значении эпсилон ваш агент будет стремиться игнорировать свою политику и выбирать случайные действия. Это исследование часто является хорошей идеей, когда ваша политика довольно слаба, особенно в начале обучения. Иногда люди разрушают эпсилон с течением времени, чтобы отразить, что их политика становится все лучше и лучше, и они хотят эксплуатировать, а не исследовать.

Не существует правильного способа выбрать эпсилон или скорость его затухания для каждой проблемы. Лучший способ, вероятно, попробовать разные значения.

person francoisr    schedule 10.11.2019
comment
Привет! Спасибо за ответ! Можете ли вы привести конкретный пример, когда лучше не разлагать эпсилон и оставить его фиксированным? - person Catarina Nogueira; 10.11.2019
comment
Большинство приложений, которые я видел, на самом деле не разрушаются и сохраняют довольно небольшой эпсилон (например, 0.05 во время обучения, а иногда и при применении политики. - person francoisr; 10.11.2019
comment
Но если вы хотите начать с большего эпсилона, то его затухание — хорошая идея, потому что в противном случае вы никогда не сможете полностью использовать и стабилизировать изучаемую политику. Вы не хотите устанавливать его равным нулю, но уменьшение до небольшого значения хорошо в большинстве случаев. Обратите внимание, что обычно существует некоторая степень гибкости в отношении точного значения эпсилон: установка другого значения может позволить сходиться к аналогичным политикам. Суть в том, что если задать маленькое значение, агент застрянет в локальном минимуме, потому что он недостаточно исследует, а слишком высокое значение не позволит ему ничего изучить. - person francoisr; 10.11.2019