Скорость обучения агента обучения Q

Вопрос о том, как скорость обучения влияет на скорость сходимости и саму сходимость. Если скорость обучения постоянна, будет ли функция Q сходиться к оптимальной или скорость обучения обязательно должна уменьшаться, чтобы гарантировать сходимость?


person uduck    schedule 08.10.2015    source источник
comment
При достаточно малой скорости обучения у вас есть гарантия сходимости для выпуклой задачи обучения q.   -  person Thomas Jungblut    schedule 08.10.2015
comment
Я предполагаю, что существует также зависимость от характера MDP. Я ПРЕДПОЛАГАЮ, что требования к сходимости на MDP со стохастичностью в переходах между состояниями и/или в функции вознаграждения должны удовлетворять требованию, опубликованному @purpletentacle. Тем не менее, я также ПРЕДПОЛАГАЮ, что если в процессе или вознаграждении нет стохастичности, скорость обучения не должна снижаться. Мы будем признательны за информацию от знающего человека (желательно с вспомогательной литературой).   -  person ALM    schedule 09.02.2018


Ответы (3)


Скорость обучения говорит о величине шага, сделанного на пути к решению.

Это число не должно быть слишком большим, так как оно может постоянно колебаться вокруг минимума, и не должно быть слишком маленьким числом, иначе это займет много времени и повторений. чтобы достичь минимума.

Причина, по которой рекомендуется снижение скорости обучения, заключается в том, что изначально, когда мы находимся в совершенно случайной точке в пространстве решений, нам нужно сделать большой скачок к решению, а позже, когда мы приблизимся к нему, мы сделаем небольшие прыжки и, следовательно, небольшие улучшения, чтобы наконец достичь минимума.

Аналогию можно провести так: в игре гольф, когда мяч находится далеко от лунки, игрок очень сильно бьет по нему, чтобы оказаться как можно ближе к лунке. . Позже, когда он достигает отмеченной области, он выбирает другую клюшку, чтобы сделать точный короткий выстрел.

Так что дело не в том, что он не сможет забить мяч в лунку, не выбрав клюшку для короткого удара, он может отправить мяч вперед цели два или три раза. Но было бы лучше, если бы он играл оптимально и использовал нужное количество силы, чтобы добраться до лунки. То же самое касается затухающей скорости обучения.

person VishalTheBeast    schedule 11.07.2017

Скорость обучения должна снижаться, но не слишком быстро. Условия сходимости следующие (извините, без латекса):

  • сумма (альфа (т), 1, инф) = инф

  • сумма (альфа (t) ^ 2, 1, инф) ‹ инф

Что-то вроде альфа = k/(k+t) может работать хорошо.

В данной статье обсуждается именно эта тема:

http://www.jmlr.org/papers/volume5/evendar03a/evendar03a.pdf

person Juan Leni    schedule 27.02.2016
comment
Even-Dar & Mansour 2003 предоставляют достаточные условия. Azar et al., 2011 содержит, среди прочего, нижние границы того, насколько хорош приближение возможно, когда скорость обучения $\alpha_k = 1/(k+1)$ - person VictorZurkowski; 28.01.2019

Она должна затухать, иначе будут какие-то колебания, провоцирующие небольшие изменения в политике.

person Alpha0    schedule 28.01.2016