Публикации по теме 'reinforcement-learning'
Знакомство с миром машинного обучения
«Машинное обучение - это следующий Интернет»
«Прорыв в машинном обучении стоит десяти Microsoft»
Почему машинное обучение?
В традиционном программировании есть некоторые проблемы.
Даже опытным программистам сложно писать программы для решения определенных задач.
Пример:
Распознавание человеческого лица или почерка Играем в сложные игры, такие как шахматы Рекомендовать фильмы, которые понравятся человеку
Почему?
Очень сложно разработать «алгоритм» для решения..
Обучение с подкреплением Глава 4: Динамическое программирование (Часть 4 — Асинхронный DP и обобщенный…
Глава 4 Серия:
Часть 1 — Итерация политики Часть 2 — Итерация политики в грид-мире Часть 3 — Итерация стоимости Часть 4 — Асинхронный DP и итерация обобщенной политики
Код: https://github.com/nums11/rl
В последних нескольких статьях мы узнали о методах динамического программирования и увидели, как их можно применить к простой среде RL. В этой статье я расскажу о другой модификации этих алгоритмов и о том, как DP играет роль в более продвинутых методах RL.
Краткое..
Многорукие бандиты с ограничением
Я люблю использовать бандитов в онлайн-системах. Их легко понять концептуально, легко реализовать, и они позволяют вам исследовать более широкое поле политики, чем вы могли бы использовать простой A/B-тест. Они отлично работают, когда требуемая интерпретируемость невелика, а окно возможностей для оптимизации непродолжительно и не хватает времени для сбора статистически значимых результатов. Для экс-оптимизации ценообразования для предложения с ограниченным периодом.
Конечно, они не..
DeepMind создает точную математическую основу непрерывного обучения с подкреплением
Усиленное обучение (RL) играет центральную роль в разработке агентов искусственного интеллекта (ИИ), которые могут принимать разумные решения на основе опыта. Однако текущее понимание агентов RL ограничено агентами, которые учатся решать проблемы, а не учатся постоянно.
В новой статье A Definition of Continual Reinforcement LearningA Definition of Continual Reinforcement Learning исследовательская группа DeepMind переосмысливает проблемы RL как бесконечную адаптацию и дает чистое,..
Часть 1: Начало работы с ROS — Обзор, установка и модель вычислительного графа ROS
Обзор
Операционная система для роботов (ROS) – это гибкая платформа для написания программного обеспечения для роботов. Это набор инструментов, библиотек и соглашений , которые нацелены на упрощение задачи создания сложного и надежного поведения роботов на самых разных роботизированных платформах.
ROS была официально создана и разработана Willow Garage с 2007 года.
В настоящее время ROS поддерживается Open Source Robotics Foundation .
В следующих разделах мы обсудим..
Реализация итерации политик в Python — минимальный рабочий пример
Узнайте об этом классическом алгоритме динамического программирования для оптимального решения марковских моделей процесса принятия решений.
Несколько дней назад я написал статью об итерации ценности (Ричард Беллман, 1957), сегодня пришло время для итерации политики (Рональд Ховард, 1960). Итерация политики — это точный алгоритм для решения моделей марковского процесса принятия решений, который гарантирует поиск оптимальной политики. По сравнению с итерацией значения преимуществом..
Посмотрите, как алгоритм ИИ побеждает игроков в онлайн-игре (видео)
ИИ играет в головоломки
Посмотрите, как алгоритм ИИ побеждает игроков в онлайн-игре
Это последний пост статьи из трех частей, в которой я прошел обучение этому алгоритму ИИ. Смело смотрите: Часть 1 , Часть 2 , Часть 3 .
В ходе обучения агент научился играть, играя против самого себя, бросая вызов собственным знаниям. Вот результаты, игра агента против других игроков онлайн:
ИИ против человека 172–117 ВОН ИИ против человека 185–94 вон ИИ против человека 191–69 ВОН..