Публикации по теме 'reinforcement-learning'


Знакомство с миром машинного обучения
«Машинное обучение - это следующий Интернет» «Прорыв в машинном обучении стоит десяти Microsoft» Почему машинное обучение? В традиционном программировании есть некоторые проблемы. Даже опытным программистам сложно писать программы для решения определенных задач. Пример: Распознавание человеческого лица или почерка Играем в сложные игры, такие как шахматы Рекомендовать фильмы, которые понравятся человеку Почему? Очень сложно разработать «алгоритм» для решения..

Обучение с подкреплением Глава 4: Динамическое программирование (Часть 4 — Асинхронный DP и обобщенный…
Глава 4 Серия: Часть 1 — Итерация политики Часть 2 — Итерация политики в грид-мире Часть 3 — Итерация стоимости Часть 4 — Асинхронный DP и итерация обобщенной политики Код: https://github.com/nums11/rl В последних нескольких статьях мы узнали о методах динамического программирования и увидели, как их можно применить к простой среде RL. В этой статье я расскажу о другой модификации этих алгоритмов и о том, как DP играет роль в более продвинутых методах RL. Краткое..

Многорукие бандиты с ограничением
Я люблю использовать бандитов в онлайн-системах. Их легко понять концептуально, легко реализовать, и они позволяют вам исследовать более широкое поле политики, чем вы могли бы использовать простой A/B-тест. Они отлично работают, когда требуемая интерпретируемость невелика, а окно возможностей для оптимизации непродолжительно и не хватает времени для сбора статистически значимых результатов. Для экс-оптимизации ценообразования для предложения с ограниченным периодом. Конечно, они не..

DeepMind создает точную математическую основу непрерывного обучения с подкреплением
Усиленное обучение (RL) играет центральную роль в разработке агентов искусственного интеллекта (ИИ), которые могут принимать разумные решения на основе опыта. Однако текущее понимание агентов RL ограничено агентами, которые учатся решать проблемы, а не учатся постоянно. В новой статье A Definition of Continual Reinforcement LearningA Definition of Continual Reinforcement Learning исследовательская группа DeepMind переосмысливает проблемы RL как бесконечную адаптацию и дает чистое,..

Часть 1: Начало работы с ROS — Обзор, установка и модель вычислительного графа ROS
Обзор Операционная система для роботов (ROS)  – это гибкая платформа для написания программного обеспечения для роботов. Это набор инструментов, библиотек и соглашений , которые нацелены на упрощение задачи создания сложного и надежного поведения роботов на самых разных роботизированных платформах. ROS была официально создана и разработана Willow Garage с 2007 года. В настоящее время ROS поддерживается Open Source Robotics Foundation . В следующих разделах мы обсудим..

Реализация итерации политик в Python  — минимальный рабочий пример
Узнайте об этом классическом алгоритме динамического программирования для оптимального решения марковских моделей процесса принятия решений. Несколько дней назад я написал статью об итерации ценности (Ричард Беллман, 1957), сегодня пришло время для итерации политики (Рональд Ховард, 1960). Итерация политики — это точный алгоритм для решения моделей марковского процесса принятия решений, который гарантирует поиск оптимальной политики. По сравнению с итерацией значения преимуществом..

Посмотрите, как алгоритм ИИ побеждает игроков в онлайн-игре (видео)
ИИ играет в головоломки Посмотрите, как алгоритм ИИ побеждает игроков в онлайн-игре Это последний пост статьи из трех частей, в которой я прошел обучение этому алгоритму ИИ. Смело смотрите: Часть 1 , Часть 2 , Часть 3 . В ходе обучения агент научился играть, играя против самого себя, бросая вызов собственным знаниям. Вот результаты, игра агента против других игроков онлайн: ИИ против человека 172–117 ВОН ИИ против человека 185–94 вон ИИ против человека 191–69 ВОН..