Публикации по теме 'reinforcement-learning'


Контекстные бандиты в обучении с подкреплением объясняются примерами и кодами
запуск глубокого обучения с подкреплением с использованием тензорного потока Итак, продолжая серию блогов по обучению с подкреплением, в которую входят Основы обучения с подкреплением Формирование многоруких бандитов (МАБ) Монте-Карло на примере Обучение временной разнице с помощью SARSA и Q Learning Разработка игр с использованием обучения с подкреплением и pygame Я буду обсуждать Contextual Bandits и их реализацию с использованием tensorflow для..

Может ли машина думать и как она может думать?
Может ли машина думать и как она может думать? Это научная область исследований по разработке различных алгоритмов и методов, позволяющих компьютерам учиться так же, как люди. Алгоритм мог получить информацию за 20 минут, которую человек может получить за 20 лет. Когда мы строим модель в машинном обучении, мы пытаемся обобщить, присвоить значение классу или попытаться предсказать числовое значение, и делаем это с определенной ошибкой. Мы делаем это с определенной вероятностью...

Алгоритм ИИ, который может выиграть почти ЛЮБУЮ игру
Это был 1997 год. Казалось, что чемпион мира по шахматам Гарри Каспаров с легкостью устоит против Deep Blue, компьютерного алгоритма, который никак не мог понять 10-дюймовые возможности, в которых может разворачиваться шахматная игра. Однако вместо того, чтобы закрывать шорт Из-за огромного количества вычислений, которые он должен был выполнить, суперкомпьютер Deep Blue фактически победил Каспарова в матче со счетом 3,5–2,5. Как компьютер мог делать эти ходы, не пробуя каждую возможную..

Так работает обучение с подкреплением
(и что заставит вас создать свой первый ИИ) В конце 2017 года Google представила AlphaZero , систему искусственного интеллекта, которая с нуля научилась овладевать шахматами, го и сёги за четыре часа. Короткого времени тренировки было достаточно, чтобы AlphaZero обыграла чемпионов мира по шахматным программам. Недавно OpenAI продемонстрировал, что обучение с подкреплением - это не просто инструмент для виртуальных задач. Дактиль , его человеческая рука робота, научилась..

Обучение с подкреплением: как технологии учит себя
Мы, люди, увлечены концепцией искусственного интеллекта с 1950-х годов . Конечно, мы можем запрограммировать компьютеры и наши устройства, чтобы они делали что-то за нас, но у компьютеров нет особой цели без инструкций. С обучением с подкреплением мы все ближе приближаемся к чему-то, что может имитировать человеческий разум. Что такое обучение с подкреплением + другие важные термины Искусственный интеллект - это идея возможности воссоздать человеческий интеллект , а машинное..

Введение в обучение с подкреплением
«Успех в создании ИИ станет самым большим событием в истории человечества. К сожалению, она может оказаться и последней, если мы не научимся избегать рисков». - Стивен Хокинг Сегодня все говорят об искусственном интеллекте (ИИ), и все хотят попасть в эту область и поработать над своими удивительными идеями. Но люди не полностью осознают, что происходит и как это происходит. Итак, в этом блоге мы попытаемся демистифицировать ИИ и дать базовое введение в обучение с подкреплением,..

Проблема многорукого бандита в обучении с подкреплением
Проблема многорукого бандита в обучении с подкреплением В этой статье вы узнаете об обучении с подкреплением, знаменитой проблеме многорукого бандита, ее применении и некоторых стратегиях решения проблемы. Задача о многоруком бандите — очень популярная проблема в обучении с подкреплением. Но эй, что такое обучение с подкреплением? Обучение с подкреплением — это тип алгоритма машинного обучения, который представляет собой алгоритм, основанный на вознаграждении и наказании, где за..