Оптимальное эпсилон (ϵ-жадное) значение

ϵ-жадная политика

Я знаю, что алгоритм Q-обучения должен балансировать между исследованием и эксплуатацией. Поскольку я новичок в этой области, я хотел реализовать простую версию поведения исследования/эксплуатации.

Optimal epsilon value

В моей реализации используется ϵ-жадная политика, но я теряюсь, когда дело доходит до определения значения эпсилон. Должен ли эпсилон быть ограничен количеством раз, когда алгоритм посещал данную пару (состояние, действие), или он должен быть ограничен количеством выполненных итераций?

My suggestions:

Уменьшайте значение эпсилон каждый раз, когда встречается заданная пара (состояние, действие).
Уменьшите значение эпсилон после выполнения полной итерации.
Уменьшайте значение эпсилон каждый раз, когда мы сталкиваемся с состоянием s.

Очень признателен!

machine-learning reinforcement-learning q-learning

OccamsMan 02.04.2014 источник

comment

Достигли ли вы какого-либо прогресса в этом отношении? Вы пробовали свои разные предложения и сравнивали их с принятым ответом? Я экспериментировал с положительным постоянным эпсилоном и затухающим эпсилоном и получил приемлемые результаты, но мне любопытно посмотреть, не даст ли эпсилон как функцию количества посещений текущей пары (состояние, действие) лучший результат. Для меня имеет смысл уменьшать эпсилон только при рассмотрении пары (состояние, действие), которую агент уже посещал несколько раз, и сохранять его выше для пары (состояние, действие), которую агент еще не посещал. - Romain G 06.01.2017

comment

Да, я тоже пробовал Regret minimization. Это ускоряет скорость сходимости, но не всегда позволяет найти наилучшее решение. В случаях действительно серьезных проблем я склонен предпочитать подход к минимизации сожалений, поскольку он быстро направляет поиск лучших решений. - OccamsMan 08.03.2017

Ответы (2)

arrow_upward
24
arrow_downward

Хотя во многих простых случаях εk сохраняется как фиксированное число в диапазоне от 0 до 1, вы должны знать, что: . Этого можно достичь, приближая εk к 0 по мере роста k. Например, ε-жадный график исследования вида εk = 1/k уменьшается до 0 при k → ∞, но при этом удовлетворяет второму условию сходимости Q-обучения, т. е. допускает бесконечное число посещений всех состояний-действий. пары (Singh et al., 2000).

Обычно я делаю следующее: устанавливаю начальную альфа = 1/k (считайте, что начальная k = 1 или 2), после того, как вы проходите испытание за испытанием, по мере увеличения k альфа будет уменьшаться. это также гарантирует сходимость.

NKN 07.04.2014

comment

Также известен как эпсилон-распад. - danelliottster; 23.04.2014

comment

@NKN что такое k в эпсилон * k? - maddie; 08.11.2018

comment

На самом деле я думаю, что понимаю, что здесь k - это временные шаги. Но вы расщепляете эпсилон и альфа для оптимального обучения q? - maddie; 08.11.2018

comment

@Matt k — шаг по времени, т. е. εk — k-е ε. Затухание альфа-канала — хорошая идея уменьшить размер шага в обучении (обновление значений), чтобы избежать скачков при сходимости к оптимальному значению. Однако константы распада могут различаться для этих двух членов. - NKN; 09.11.2018

arrow_upward
-1
arrow_downward

Обычно разумно просто установить ε на положительную константу, если у вас нет веских причин не делать этого.

Don Reba 02.04.2014

comment

Эмпирически: не должен ли агент с меньшей вероятностью принять исследование, поскольку таблицы значений Q сходятся к истинным таблицам переходов? Пример: игровой агент должен предпочесть свою эмерджентную совершенную стратегию вместо того, чтобы продолжать делать плохие ходы (исследование). - OccamsMan; 02.04.2014

Оптимальное эпсилон (ϵ-жадное) значение

ϵ-жадная политика

Ответы (2)

Похожие вопросы