Статьи по тематике reinforcement-learning

Публикации по теме 'reinforcement-learning'

Основы обучения с компьютерным подкреплением

Ссылка: http://videolectures.net/rldm2015_littman_computational_reinforcement/ В машинном обучении важную роль играет обучение с подкреплением. Это проистекает из способности системы принимать решения, которую можно улучшить за счет взаимодействия с миром и оценки обратной связи. Это руководство знакомит с основными понятиями и словарным запасом в этой области. Кроме того, в руководстве показаны последние достижения в теории и практике обучения с подкреплением. Для начала докладчик..

Куда дальше? После SVM, CNN и вложений слов

Обилие знаний, связанных с машинным обучением, - это самая замечательная вещь в этом предмете. Баланс теории и кодирования требует устойчивого и дисциплинированного подхода. В этом уроке из пяти серий мы увидели CNN, где мы увидели различные подходы к различным сценариям, а затем поработали над встраиванием слов, которое было нашим шлюзом к обработке естественного языка, и, наконец, закончили поддержкой векторных машин (SVM), которые были столь же мощными, как и Искусственные нейронные..

Ray - фреймворк машинного обучения для кластерных вычислений для новых приложений.

Введение Последний пост посвящен принципам проектирования , изложенным в статье Riselabs из Беркли для новой структуры, необходимой для развивающегося класса приложений ИИ. Этот пост будет основан на этих принципах дизайна и сделает глубокое погружение в каркас Ray , построенный в соответствии с этими принципами. Я настоятельно рекомендую ознакомиться с принципами дизайна, прежде чем переходить к этому. Этот пост будет основан на большом количестве материала, который был рассмотрен в..

Инжиниринг позади RL

Моя первая попытка реализовать алгоритм обучения с подкреплением началась с OpenAI Gym и его среды CartPole. Точнее, то, что я делал, я делаю каждый раз: пытаюсь найти эталонные решения, чтобы понять, что это будет в реальном коде. И что я нашел сначала: https://keon.io/deep-q-learning/ . Этот пост в блоге достаточно хорош, поэтому он предоставляет простой исходный код с пояснениями. На самом деле реализация была настолько простой, что я был почти уверен, что смогу сделать лучше,..

Безопасность искусственного интеллекта: проблемные случаи для текущих алгоритмов

Внутри ИИ AI Safety: проблемные случаи для текущих алгоритмов Искусственный интеллект в настоящее время является одной из самых горячих тем, в основном по плохим причинам, чем по хорошим. С одной стороны, мы смогли добиться крупных технологических прорывов, что сделало нас на шаг ближе к созданию мыслящих машин с человеческим восприятием. С другой стороны, мы создали совершенно новую опасность для нашего общества, которая не является внешней, как метеорит или смертоносные бактерии, а..

Многорукий бандит

Механизмы рекомендаций на базе обучения с подкреплением. Августовский выпуск Design + AI был забит теориями, терминологией и идеями. Мы приветствовали Инмара Джовони , нынешнего менеджера по автономному проектированию в Uber ATG и бывшего руководителя отдела обработки и анализа данных в Kobo, чтобы он поделился с нами тематическим исследованием. Инмар рассказала нам о своих мыслях и решениях, которые приняла ее команда Kobo при использовании обучения с подкреплением, чтобы предлагать..

Не очередной учебник по RL!

Часть 1: Вихревой тур по RL "О нет." Я слышу, как вы говорите, когда нажимаете на другой пост, который призван научить вас обучению с подкреплением. — Не другой. Что ж, извините за разочарование, но добро пожаловать в еще одну одиссею по чудесному миру обучения с подкреплением. Однако на этот раз ваш хозяин так же невежественен, как и вы! Я пытался выучить RL — и я имею в виду действительно выучить RL — уже несколько месяцев. Пытаясь обуздать свою типичную привычку смотреть..