Qlearning Эпсилон-жадное исследование: исправлен распад Эпсилон X

Я учу агента выбираться из лабиринта, собирая все яблоки на своем пути, с помощью Qlearning.

Я читал, что можно оставить фиксированный эпсилон или выбрать эпсилон и затухать с течением времени.

Я не смог найти преимущества или недостатки каждого подхода, я хотел бы услышать больше, если вы поможете мне понять, что мне следует использовать.

Спасибо!

artificial-intelligence q-learning epsilon

Catarina Nogueira 09.11.2019 источник

Ответы (1)

arrow_upward
2
arrow_downward

Я предполагаю, что вы имеете в виду эпсилон как «исследование эпсилон-зеленого». Цель этого параметра — контролировать, насколько ваш агент верит в свою текущую политику. При большом значении эпсилон ваш агент будет стремиться игнорировать свою политику и выбирать случайные действия. Это исследование часто является хорошей идеей, когда ваша политика довольно слаба, особенно в начале обучения. Иногда люди разрушают эпсилон с течением времени, чтобы отразить, что их политика становится все лучше и лучше, и они хотят эксплуатировать, а не исследовать.

Не существует правильного способа выбрать эпсилон или скорость его затухания для каждой проблемы. Лучший способ, вероятно, попробовать разные значения.

francoisr 10.11.2019

comment

Привет! Спасибо за ответ! Можете ли вы привести конкретный пример, когда лучше не разлагать эпсилон и оставить его фиксированным? - Catarina Nogueira; 10.11.2019

comment

Большинство приложений, которые я видел, на самом деле не разрушаются и сохраняют довольно небольшой эпсилон (например, 0.05 во время обучения, а иногда и при применении политики. - francoisr; 10.11.2019

comment

Но если вы хотите начать с большего эпсилона, то его затухание — хорошая идея, потому что в противном случае вы никогда не сможете полностью использовать и стабилизировать изучаемую политику. Вы не хотите устанавливать его равным нулю, но уменьшение до небольшого значения хорошо в большинстве случаев. Обратите внимание, что обычно существует некоторая степень гибкости в отношении точного значения эпсилон: установка другого значения может позволить сходиться к аналогичным политикам. Суть в том, что если задать маленькое значение, агент застрянет в локальном минимуме, потому что он недостаточно исследует, а слишком высокое значение не позволит ему ничего изучить. - francoisr; 10.11.2019

Qlearning Эпсилон-жадное исследование: исправлен распад Эпсилон X

Ответы (1)

Похожие вопросы