Публикации по теме 'reinforcement-learning'


Вы хотите обучить упрощенный беспилотный автомобиль с помощью обучения с подкреплением?
Просто попробуйте нашу новую среду LongiControl Environment Здесь я представляю исследование, проведенное с Яном Доменом и Кристофом Фрибелем. Мотивация В последние годы наблюдается всплеск практических успехов в использовании обучения с подкреплением (RL) [1] для решения сложных игр и небольших задач [2] [3] [4]. Эти успехи в RL были частично достигнуты благодаря активным совместным усилиям сообщества RL по работе над общими симуляторами среды с открытым исходным кодом, такими..

Я знаю кунг-фу
и другие революционные приложения машинного обучения К вам вопрос: Был ли Neo высокоразвитым алгоритмом подкрепления? Я думаю, что именно так он смог изучить кунг-фу, просто наблюдая, как это делают другие люди. Интересно пересматривать такие фильмы через современный объектив, зная то, что я знаю о машинном обучении. Вы могли сделать вывод, что Нео был тем единственным , потому что он был некоего алгоритма обучения с подкреплением, который изменил правила игры. Вот почему он..

Что такое моделирование Монте-Карло?
Моделирование Монте-Карло названо в честь города Монте-Карло в Монако, который славится азартными играми, такими как рулетка, кости и игровые автоматы. Поскольку процесс моделирования включает генерацию случайных переменных и демонстрирует случайное поведение, он называется моделированием Монте-Карло. Моделирование методом Монте-Карло является мощным инструментом статистического анализа и широко используется как в нетехнических, так и в инженерных областях. Первоначально он..

Повторение еще одного опыта задним числом: предыстория
Пару месяцев назад я решил отправиться в путешествие, когда наткнулся на статью, идеи которой меня увлекли. Эта статья посвящена обучению с подкреплением и является первой из серии из трех статей: Предыстория Уточнение плана Цель достигнута Я помню время, когда я наконец узнал об обучении с подкреплением после пары лет, полностью посвященных обучению с учителем / без учителя. На самом деле он никогда не привлекал мое внимание, главным образом потому, что большинство..

Обучение с подкреплением на основе моделей для Atari
Авторы Петр Козаковский и Петр Милос Обучение с подкреплением Область искусственного интеллекта (ИИ) стремится создавать автономных агентов, способных воспринимать свое окружение и действовать независимо для достижения желаемых целей. Такие агенты могут управлять практически чем угодно, от автономных роботов до голосовых помощников до игроков в видеоигры . Диапазон потенциальных приложений систем ИИ огромен. Обучение с подкреплением (RL) может быть наиболее многообещающим..

Генеративное состязательное имитационное обучение
Обучение на демонстрациях будет играть очень важную роль в эпоху робототехники. Если роботам или людям нужно выжить друг с другом, роботы должны предсказывать и понимать поведение людей для обеспечения надежности и безопасности. Здесь интерес представляет (как вы уже догадались) имитационное обучение , то есть обучение выполнению задания на демонстрациях. Чтобы агент обучения с подкреплением преуспел, ему необходимо изучить высокоуровневые функции на основе многомерных наблюдений..

Основные выводы по реализации многоагентного глубокого детерминированного градиента политики (MADDPG) для Unity…
Набор инструментов Unity Machine Learning Agents Toolkit предлагает разработчикам широкий спектр различных сред, с которыми они могут поиграть. Среди всех этих сред я лично нашел многоагентную среду наиболее сложной и интересной. Недавно я некоторое время работал над Теннисом и хотел бы поделиться здесь своими скромными знаниями. Об окружающей среде Эта среда включает 2 независимых агента. Каждый из этих агентов должен научиться управлять действиями теннисной стойки. Эти..