Я учу агента выбираться из лабиринта, собирая все яблоки на своем пути, с помощью Qlearning.
Я читал, что можно оставить фиксированный эпсилон или выбрать эпсилон и затухать с течением времени.
Я не смог найти преимущества или недостатки каждого подхода, я хотел бы услышать больше, если вы поможете мне понять, что мне следует использовать.
Спасибо!