Оптимальное эпсилон (ϵ-жадное) значение

ϵ-жадная политика

Я знаю, что алгоритм Q-обучения должен балансировать между исследованием и эксплуатацией. Поскольку я новичок в этой области, я хотел реализовать простую версию поведения исследования/эксплуатации.

Optimal epsilon value

В моей реализации используется ϵ-жадная политика, но я теряюсь, когда дело доходит до определения значения эпсилон. Должен ли эпсилон быть ограничен количеством раз, когда алгоритм посещал данную пару (состояние, действие), или он должен быть ограничен количеством выполненных итераций?

My suggestions:
  1. Уменьшайте значение эпсилон каждый раз, когда встречается заданная пара (состояние, действие).
  2. Уменьшите значение эпсилон после выполнения полной итерации.
  3. Уменьшайте значение эпсилон каждый раз, когда мы сталкиваемся с состоянием s.

Очень признателен!


person OccamsMan    schedule 02.04.2014    source источник
comment
Достигли ли вы какого-либо прогресса в этом отношении? Вы пробовали свои разные предложения и сравнивали их с принятым ответом? Я экспериментировал с положительным постоянным эпсилоном и затухающим эпсилоном и получил приемлемые результаты, но мне любопытно посмотреть, не даст ли эпсилон как функцию количества посещений текущей пары (состояние, действие) лучший результат. Для меня имеет смысл уменьшать эпсилон только при рассмотрении пары (состояние, действие), которую агент уже посещал несколько раз, и сохранять его выше для пары (состояние, действие), которую агент еще не посещал.   -  person Romain G    schedule 06.01.2017
comment
Да, я тоже пробовал Regret minimization. Это ускоряет скорость сходимости, но не всегда позволяет найти наилучшее решение. В случаях действительно серьезных проблем я склонен предпочитать подход к минимизации сожалений, поскольку он быстро направляет поиск лучших решений.   -  person OccamsMan    schedule 08.03.2017


Ответы (2)


Хотя во многих простых случаях εk сохраняется как фиксированное число в диапазоне от 0 до 1, вы должны знать, что: . Этого можно достичь, приближая εk к 0 по мере роста k. Например, ε-жадный график исследования вида εk = 1/k уменьшается до 0 при k → ∞, но при этом удовлетворяет второму условию сходимости Q-обучения, т. е. допускает бесконечное число посещений всех состояний-действий. пары (Singh et al., 2000).

Обычно я делаю следующее: устанавливаю начальную альфа = 1/k (считайте, что начальная k = 1 или 2), после того, как вы проходите испытание за испытанием, по мере увеличения k альфа будет уменьшаться. это также гарантирует сходимость.

person NKN    schedule 07.04.2014
comment
Также известен как эпсилон-распад. - person danelliottster; 23.04.2014
comment
@NKN что такое k в эпсилон * k? - person maddie; 08.11.2018
comment
На самом деле я думаю, что понимаю, что здесь k - это временные шаги. Но вы расщепляете эпсилон и альфа для оптимального обучения q? - person maddie; 08.11.2018
comment
@Matt k — шаг по времени, т. е. εk — k-е ε. Затухание альфа-канала — хорошая идея уменьшить размер шага в обучении (обновление значений), чтобы избежать скачков при сходимости к оптимальному значению. Однако константы распада могут различаться для этих двух членов. - person NKN; 09.11.2018

Обычно разумно просто установить ε на положительную константу, если у вас нет веских причин не делать этого.

person Don Reba    schedule 02.04.2014
comment
Эмпирически: не должен ли агент с меньшей вероятностью принять исследование, поскольку таблицы значений Q сходятся к истинным таблицам переходов? Пример: игровой агент должен предпочесть свою эмерджентную совершенную стратегию вместо того, чтобы продолжать делать плохие ходы (исследование). - person OccamsMan; 02.04.2014