Вопрос о том, как скорость обучения влияет на скорость сходимости и саму сходимость. Если скорость обучения постоянна, будет ли функция Q сходиться к оптимальной или скорость обучения обязательно должна уменьшаться, чтобы гарантировать сходимость?
Скорость обучения агента обучения Q
Ответы (3)
Скорость обучения говорит о величине шага, сделанного на пути к решению.
Это число не должно быть слишком большим, так как оно может постоянно колебаться вокруг минимума, и не должно быть слишком маленьким числом, иначе это займет много времени и повторений. чтобы достичь минимума.
Причина, по которой рекомендуется снижение скорости обучения, заключается в том, что изначально, когда мы находимся в совершенно случайной точке в пространстве решений, нам нужно сделать большой скачок к решению, а позже, когда мы приблизимся к нему, мы сделаем небольшие прыжки и, следовательно, небольшие улучшения, чтобы наконец достичь минимума.
Аналогию можно провести так: в игре гольф, когда мяч находится далеко от лунки, игрок очень сильно бьет по нему, чтобы оказаться как можно ближе к лунке. . Позже, когда он достигает отмеченной области, он выбирает другую клюшку, чтобы сделать точный короткий выстрел.
Так что дело не в том, что он не сможет забить мяч в лунку, не выбрав клюшку для короткого удара, он может отправить мяч вперед цели два или три раза. Но было бы лучше, если бы он играл оптимально и использовал нужное количество силы, чтобы добраться до лунки. То же самое касается затухающей скорости обучения.
Скорость обучения должна снижаться, но не слишком быстро. Условия сходимости следующие (извините, без латекса):
сумма (альфа (т), 1, инф) = инф
сумма (альфа (t) ^ 2, 1, инф) ‹ инф
Что-то вроде альфа = k/(k+t) может работать хорошо.
В данной статье обсуждается именно эта тема:
http://www.jmlr.org/papers/volume5/evendar03a/evendar03a.pdf
Она должна затухать, иначе будут какие-то колебания, провоцирующие небольшие изменения в политике.