Публикации по теме 'reinforcement-learning'
Контекстные бандиты в обучении с подкреплением объясняются примерами и кодами
запуск глубокого обучения с подкреплением с использованием тензорного потока
Итак, продолжая серию блогов по обучению с подкреплением, в которую входят
Основы обучения с подкреплением
Формирование многоруких бандитов (МАБ)
Монте-Карло на примере
Обучение временной разнице с помощью SARSA и Q Learning
Разработка игр с использованием обучения с подкреплением и pygame
Я буду обсуждать Contextual Bandits и их реализацию с использованием tensorflow для..
Может ли машина думать и как она может думать?
Может ли машина думать и как она может думать?
Это научная область исследований по разработке различных алгоритмов и методов, позволяющих компьютерам учиться так же, как люди. Алгоритм мог получить информацию за 20 минут, которую человек может получить за 20 лет. Когда мы строим модель в машинном обучении, мы пытаемся обобщить, присвоить значение классу или попытаться предсказать числовое значение, и делаем это с определенной ошибкой. Мы делаем это с определенной вероятностью...
Алгоритм ИИ, который может выиграть почти ЛЮБУЮ игру
Это был 1997 год. Казалось, что чемпион мира по шахматам Гарри Каспаров с легкостью устоит против Deep Blue, компьютерного алгоритма, который никак не мог понять 10-дюймовые возможности, в которых может разворачиваться шахматная игра. Однако вместо того, чтобы закрывать шорт Из-за огромного количества вычислений, которые он должен был выполнить, суперкомпьютер Deep Blue фактически победил Каспарова в матче со счетом 3,5–2,5. Как компьютер мог делать эти ходы, не пробуя каждую возможную..
Так работает обучение с подкреплением
(и что заставит вас создать свой первый ИИ)
В конце 2017 года Google представила AlphaZero , систему искусственного интеллекта, которая с нуля научилась овладевать шахматами, го и сёги за четыре часа.
Короткого времени тренировки было достаточно, чтобы AlphaZero обыграла чемпионов мира по шахматным программам.
Недавно OpenAI продемонстрировал, что обучение с подкреплением - это не просто инструмент для виртуальных задач. Дактиль , его человеческая рука робота, научилась..
Обучение с подкреплением: как технологии учит себя
Мы, люди, увлечены концепцией искусственного интеллекта с 1950-х годов . Конечно, мы можем запрограммировать компьютеры и наши устройства, чтобы они делали что-то за нас, но у компьютеров нет особой цели без инструкций. С обучением с подкреплением мы все ближе приближаемся к чему-то, что может имитировать человеческий разум.
Что такое обучение с подкреплением + другие важные термины
Искусственный интеллект - это идея возможности воссоздать человеческий интеллект , а машинное..
Введение в обучение с подкреплением
«Успех в создании ИИ станет самым большим событием в истории человечества. К сожалению, она может оказаться и последней, если мы не научимся избегать рисков». - Стивен Хокинг
Сегодня все говорят об искусственном интеллекте (ИИ), и все хотят попасть в эту область и поработать над своими удивительными идеями. Но люди не полностью осознают, что происходит и как это происходит. Итак, в этом блоге мы попытаемся демистифицировать ИИ и дать базовое введение в обучение с подкреплением,..
Проблема многорукого бандита в обучении с подкреплением
Проблема многорукого бандита в обучении с подкреплением
В этой статье вы узнаете об обучении с подкреплением, знаменитой проблеме многорукого бандита, ее применении и некоторых стратегиях решения проблемы.
Задача о многоруком бандите — очень популярная проблема в обучении с подкреплением. Но эй, что такое обучение с подкреплением?
Обучение с подкреплением — это тип алгоритма машинного обучения, который представляет собой алгоритм, основанный на вознаграждении и наказании, где за..