Скорость обучения агента обучения Q

Вопрос о том, как скорость обучения влияет на скорость сходимости и саму сходимость. Если скорость обучения постоянна, будет ли функция Q сходиться к оптимальной или скорость обучения обязательно должна уменьшаться, чтобы гарантировать сходимость?

machine-learning reinforcement-learning q-learning

uduck 08.10.2015 источник

comment

При достаточно малой скорости обучения у вас есть гарантия сходимости для выпуклой задачи обучения q. - Thomas Jungblut 08.10.2015

comment

Я предполагаю, что существует также зависимость от характера MDP. Я ПРЕДПОЛАГАЮ, что требования к сходимости на MDP со стохастичностью в переходах между состояниями и/или в функции вознаграждения должны удовлетворять требованию, опубликованному @purpletentacle. Тем не менее, я также ПРЕДПОЛАГАЮ, что если в процессе или вознаграждении нет стохастичности, скорость обучения не должна снижаться. Мы будем признательны за информацию от знающего человека (желательно с вспомогательной литературой). - ALM 09.02.2018

Ответы (3)

arrow_upward
4
arrow_downward

Скорость обучения говорит о величине шага, сделанного на пути к решению.

Это число не должно быть слишком большим, так как оно может постоянно колебаться вокруг минимума, и не должно быть слишком маленьким числом, иначе это займет много времени и повторений. чтобы достичь минимума.

Причина, по которой рекомендуется снижение скорости обучения, заключается в том, что изначально, когда мы находимся в совершенно случайной точке в пространстве решений, нам нужно сделать большой скачок к решению, а позже, когда мы приблизимся к нему, мы сделаем небольшие прыжки и, следовательно, небольшие улучшения, чтобы наконец достичь минимума.

Аналогию можно провести так: в игре гольф, когда мяч находится далеко от лунки, игрок очень сильно бьет по нему, чтобы оказаться как можно ближе к лунке. . Позже, когда он достигает отмеченной области, он выбирает другую клюшку, чтобы сделать точный короткий выстрел.

Так что дело не в том, что он не сможет забить мяч в лунку, не выбрав клюшку для короткого удара, он может отправить мяч вперед цели два или три раза. Но было бы лучше, если бы он играл оптимально и использовал нужное количество силы, чтобы добраться до лунки. То же самое касается затухающей скорости обучения.

VishalTheBeast 11.07.2017

arrow_upward
1
arrow_downward

Скорость обучения должна снижаться, но не слишком быстро. Условия сходимости следующие (извините, без латекса):

сумма (альфа (т), 1, инф) = инф
сумма (альфа (t) ^ 2, 1, инф) ‹ инф

Что-то вроде альфа = k/(k+t) может работать хорошо.

В данной статье обсуждается именно эта тема:

http://www.jmlr.org/papers/volume5/evendar03a/evendar03a.pdf

Juan Leni 27.02.2016

comment

Even-Dar & Mansour 2003 предоставляют достаточные условия. Azar et al., 2011 содержит, среди прочего, нижние границы того, насколько хорош приближение возможно, когда скорость обучения $\alpha_k = 1/(k+1)$ - VictorZurkowski; 28.01.2019

arrow_upward
0
arrow_downward

Она должна затухать, иначе будут какие-то колебания, провоцирующие небольшие изменения в политике.

Alpha0 28.01.2016

Скорость обучения агента обучения Q

Ответы (3)

Похожие вопросы