Публикации по теме 'markov-decision-process'
Обучение с подкреплением: обучение MC без моделей с реализацией кода
Сегодня мы сосредоточимся на создании агента Монте-Карло (MC) для изучения MDP. В предыдущей истории мы реализовали обучающий ADP на основе модели, который оценивает модель функции вознаграждения r ( s ) и вероятности перехода p ( s ′| s , a ). В некоторых случаях такой подход, основанный на модели, может работать эффективно. Однако, если модель перехода трудно оценить, подход без моделей, как правило, является лучшим выбором. Монте-Карло (МК), который является нашей сегодняшней..
Понимание марковских процессов принятия решений: объединение детерминированных и недетерминированных поисков
В области искусственного интеллекта и принятия решений марковские процессы принятия решений (MDP) играют решающую роль в моделировании последовательных задач принятия решений. MDP обеспечивают основу для принятия оптимальных решений в средах, где на результаты влияют как действия агента, так и неотъемлемая неопределенность. Эта статья направлена на то, чтобы демистифицировать MDP, проливая свет на их концепции, приложения и их связь с уравнением Беллмана.
Детерминированный и..
Реализация итерации политик в Python — минимальный рабочий пример
Узнайте об этом классическом алгоритме динамического программирования для оптимального решения марковских моделей процесса принятия решений.
Несколько дней назад я написал статью об итерации ценности (Ричард Беллман, 1957), сегодня пришло время для итерации политики (Рональд Ховард, 1960). Итерация политики — это точный алгоритм для решения моделей марковского процесса принятия решений, который гарантирует поиск оптимальной политики. По сравнению с итерацией значения преимуществом..
Замерзшее озеро как марковский процесс принятия решений
Зима пришла. Может ли динамическое программирование спасти нас?
Это вторая публикация из серии, посвященной обучению с подкреплением. В предыдущем посте мы рассмотрели простую среду k-Armed Bandit и узнали идеи о методах действия и исследованиях. В этом посте мы рассмотрим Frozen-Lake, среду более сложную, чем в предыдущем. Мы будем использовать марковские процессы принятия решений для моделирования этой среды. Затем мы узнаем о функциях и политиках создания ценности, а также о том,..
Вопросы по теме 'markov-decision-process'
Опрос результатов марковского моделирования - помощь и отзывы приветствуются
Я построил цепь Маркова, с помощью которой я могу моделировать повседневную жизнь людей (схемы активности). Каждый день симуляции делится на 144 временных шага, и человек может выполнять одно из четырнадцати действий. Это: В гостях - работа (1) В...
43 просмотров
schedule
21.05.2022
Проблемы с кодированием Марковского процесса принятия решений
Я пытаюсь закодировать Markov-Decision Process (MDP) и столкнулся с некоторой проблемой. Не могли бы вы проверить мой код и выяснить, почему он не работает
Я попытался сделать это с некоторыми небольшими данными, и это работает и дает мне...
259 просмотров
schedule
05.08.2022
Gridworld из книги Sutton RL: как рассчитать функцию значения для угловых ячеек?
Ссылаясь на книгу RL Саттона и Барто, 2-е изд., глава 3, стр. 60.
Вот мир сетки 5x5 и значение каждого состояния: gridoworld со значениями состояния
Используя уравнение резервного копирования Беллмана, можно рассчитать значение каждого...
135 просмотров
schedule
18.02.2022