ϵ-жадная политика
Я знаю, что алгоритм Q-обучения должен балансировать между исследованием и эксплуатацией. Поскольку я новичок в этой области, я хотел реализовать простую версию поведения исследования/эксплуатации.
Optimal epsilon valueВ моей реализации используется ϵ-жадная политика, но я теряюсь, когда дело доходит до определения значения эпсилон. Должен ли эпсилон быть ограничен количеством раз, когда алгоритм посещал данную пару (состояние, действие), или он должен быть ограничен количеством выполненных итераций?
My suggestions:- Уменьшайте значение эпсилон каждый раз, когда встречается заданная пара (состояние, действие).
- Уменьшите значение эпсилон после выполнения полной итерации.
- Уменьшайте значение эпсилон каждый раз, когда мы сталкиваемся с состоянием s.
Очень признателен!
Regret minimization
. Это ускоряет скорость сходимости, но не всегда позволяет найти наилучшее решение. В случаях действительно серьезных проблем я склонен предпочитать подход к минимизации сожалений, поскольку он быстро направляет поиск лучших решений. - person OccamsMan   schedule 08.03.2017