Публикации по теме 'markov-decision-process'


Обучение с подкреплением: обучение MC без моделей с реализацией кода
Сегодня мы сосредоточимся на создании агента Монте-Карло (MC) для изучения MDP. В предыдущей истории мы реализовали обучающий ADP на основе модели, который оценивает модель функции вознаграждения r ( s ) и вероятности перехода p ( s ′| s , a ). В некоторых случаях такой подход, основанный на модели, может работать эффективно. Однако, если модель перехода трудно оценить, подход без моделей, как правило, является лучшим выбором. Монте-Карло (МК), который является нашей сегодняшней..

Понимание марковских процессов принятия решений: объединение детерминированных и недетерминированных поисков
В области искусственного интеллекта и принятия решений марковские процессы принятия решений (MDP) играют решающую роль в моделировании последовательных задач принятия решений. MDP обеспечивают основу для принятия оптимальных решений в средах, где на результаты влияют как действия агента, так и неотъемлемая неопределенность. Эта статья направлена ​​на то, чтобы демистифицировать MDP, проливая свет на их концепции, приложения и их связь с уравнением Беллмана. Детерминированный и..

Реализация итерации политик в Python  — минимальный рабочий пример
Узнайте об этом классическом алгоритме динамического программирования для оптимального решения марковских моделей процесса принятия решений. Несколько дней назад я написал статью об итерации ценности (Ричард Беллман, 1957), сегодня пришло время для итерации политики (Рональд Ховард, 1960). Итерация политики — это точный алгоритм для решения моделей марковского процесса принятия решений, который гарантирует поиск оптимальной политики. По сравнению с итерацией значения преимуществом..

Замерзшее озеро как марковский процесс принятия решений
Зима пришла. Может ли динамическое программирование спасти нас? Это вторая публикация из серии, посвященной обучению с подкреплением. В предыдущем посте мы рассмотрели простую среду k-Armed Bandit и узнали идеи о методах действия и исследованиях. В этом посте мы рассмотрим Frozen-Lake, среду более сложную, чем в предыдущем. Мы будем использовать марковские процессы принятия решений для моделирования этой среды. Затем мы узнаем о функциях и политиках создания ценности, а также о том,..

Вопросы по теме 'markov-decision-process'

Опрос результатов марковского моделирования - помощь и отзывы приветствуются
Я построил цепь Маркова, с помощью которой я могу моделировать повседневную жизнь людей (схемы активности). Каждый день симуляции делится на 144 временных шага, и человек может выполнять одно из четырнадцати действий. Это: В гостях - работа (1) В...
43 просмотров

Проблемы с кодированием Марковского процесса принятия решений
Я пытаюсь закодировать Markov-Decision Process (MDP) и столкнулся с некоторой проблемой. Не могли бы вы проверить мой код и выяснить, почему он не работает Я попытался сделать это с некоторыми небольшими данными, и это работает и дает мне...
259 просмотров
schedule 05.08.2022

Gridworld из книги Sutton RL: как рассчитать функцию значения для угловых ячеек?
Ссылаясь на книгу RL Саттона и Барто, 2-е изд., глава 3, стр. 60. Вот мир сетки 5x5 и значение каждого состояния: gridoworld со значениями состояния Используя уравнение резервного копирования Беллмана, можно рассчитать значение каждого...
135 просмотров