Публикации по теме 'monte-carlo-method'


Обучение с подкреплением: обучение MC без моделей с реализацией кода
Сегодня мы сосредоточимся на создании агента Монте-Карло (MC) для изучения MDP. В предыдущей истории мы реализовали обучающий ADP на основе модели, который оценивает модель функции вознаграждения r ( s ) и вероятности перехода p ( s ′| s , a ). В некоторых случаях такой подход, основанный на модели, может работать эффективно. Однако, если модель перехода трудно оценить, подход без моделей, как правило, является лучшим выбором. Монте-Карло (МК), который является нашей сегодняшней..