Я экспериментирую с алгоритмом Q-обучения. Я читал из разных источников и понял алгоритм, однако, похоже, нет четких критериев сходимости, которые математически подкреплены.
Большинство источников рекомендуют повторение несколько раз (например, N = 1000), в то время как другие говорят, что сходимость достигается, когда все пары состояния и действия (s, a) посещаются бесконечно часто. Но вопрос здесь в том, насколько бесконечно часто. Каковы наилучшие критерии для того, кто хочет решить алгоритм вручную?
Я был бы признателен, если бы кто-то мог обучить меня этому. Я также был бы признателен за любые статьи на этот счет.
С Уважением.