Критерии конвергенции в Q-обучении

Я экспериментирую с алгоритмом Q-обучения. Я читал из разных источников и понял алгоритм, однако, похоже, нет четких критериев сходимости, которые математически подкреплены.

Большинство источников рекомендуют повторение несколько раз (например, N = 1000), в то время как другие говорят, что сходимость достигается, когда все пары состояния и действия (s, a) посещаются бесконечно часто. Но вопрос здесь в том, насколько бесконечно часто. Каковы наилучшие критерии для того, кто хочет решить алгоритм вручную?

Я был бы признателен, если бы кто-то мог обучить меня этому. Я также был бы признателен за любые статьи на этот счет.

С Уважением.


comment
Это не по теме для Stack Overflow IMO.   -  person AMC    schedule 13.01.2020
comment
@drtamakloe Если один из приведенных ниже ответов решил ваш вопрос, рассмотрите возможность принятия его, установив флажок рядом с Это. Это показывает более широкому сообществу, что вы нашли решение.   -  person Brett Daley    schedule 03.02.2020


Ответы (2)


Q-Learning стал крупным прорывом в обучении с подкреплением именно потому, что это был первый алгоритм с гарантированной сходимостью к оптимальной политике. Первоначально он был предложен в (Watkins, 1989) и его доказательство сходимости уточнено в (Watkins & Dayan, 1992).

Короче говоря, должны быть выполнены два условия, чтобы гарантировать сходимость в пределе, а это означает, что политика станет сколь угодно близкой к оптимальной после сколь угодно долгого периода времени. Обратите внимание, что эти условия ничего не говорят о том, как быстро политика приблизится к оптимальной.

  1. Скорость обучения должна приближаться к нулю, но не слишком быстро. Формально это требует, чтобы сумма скоростей обучения расходилась, но сумма их квадратов должна сходиться. Примером последовательности, обладающей этими свойствами, является 1/1, 1/2, 1/3, 1/4, ....
  2. Каждая пара состояние-действие должна посещаться бесконечно часто. У этого есть точное математическое определение: каждое действие должно иметь ненулевую вероятность быть выбранным политикой в ​​каждом состоянии. , то есть π(s, a) > 0 для всех (s, a). На практике использование ε-жадной политики (где ε > 0) гарантирует выполнение этого условия.
person Brett Daley    schedule 13.01.2020

Любой алгоритм RL сходится, когда кривая обучения становится плоской и больше не увеличивается. Однако для каждого случая следует учитывать определенные элементы, поскольку это зависит от вашего алгоритма и спецификаций вашей задачи.

Теоретически было доказано, что Q-Learning сходится к оптимальному решению, но обычно не очевидно, как настроить гиперпараметры, такие как ???? и ????, таким образом, чтобы обеспечить сходимость.

Имейте в виду, что Q-обучение — это старый алгоритм и отчасти устаревший, это хороший способ узнать об RL, но есть лучшие способы решения реальной проблемы.

person Alaleh Ahmadian    schedule 13.01.2020