Публикации по теме 'reinforcement-learning'


Нейронная сеть с расширенной памятью для метаобучения - пример из практики
Метаобучение простыми словами «Обучение обучению» - одна из быстрорастущих областей исследований в области искусственного интеллекта, в частности обучения с подкреплением. Традиционные архитектуры глубокого обучения, такие как DNN, CNN и RNN, определены или построены так, чтобы хорошо работать для конкретной задачи. Другими словами, они необходимы для оптимизации параметров (весов и смещений), учитывая, что обучающие данные установлены для конкретной задачи. Идея метаобучения состоит в..

Основы машинного обучения для начинающих
Что такое машинное обучение? Машинное обучение — это развивающаяся инновация, которая позволяет компьютерам естественным образом учиться на прошлой информации. Машинное обучение использует различные расчеты для построения числовых, а также статистических моделей и прогнозирования с использованием проверенной информации или данных. В настоящее время он используется для различных задач, таких как распознавание изображений, распознавание речи, подтверждение распознавания, фильтрация..

Обучение с подкреплением: полное руководство
Обучение с подкреплением (RL) — это подобласть искусственного интеллекта, которая фокусируется на обучении агента принимать последовательность решений в окружающей среде для максимизации совокупного вознаграждения. Он привлек значительное внимание благодаря своей способности решать сложные задачи, обучаясь на основе взаимодействия с окружающей средой. В этом блоге мы углубимся в основы RL и продемонстрируем его реализацию с использованием кода Python и библиотеки OpenAI Gym. Для..

Рандомизированное ансамблевое двойное Q-Learning: быстрое обучение без модели
Мотивация Безмодельное обучение с подкреплением . Алгоритмы достигли впечатляющих результатов, и исследователи придумывают новые и лучшие идеи для дальнейшего повышения их эффективности. Но, несмотря на все их преимущества и улучшения, изложенные в недавних статьях, общепризнанно, что алгоритмы без моделей крайне неэффективны с точки зрения данных . Требуются миллионы фреймов или примеров для изучения оптимальных политик и функций точного значения. Таким образом, они не подходят..

Обучение с подкреплением: обучение MC без моделей с реализацией кода
Сегодня мы сосредоточимся на создании агента Монте-Карло (MC) для изучения MDP. В предыдущей истории мы реализовали обучающий ADP на основе модели, который оценивает модель функции вознаграждения r ( s ) и вероятности перехода p ( s ′| s , a ). В некоторых случаях такой подход, основанный на модели, может работать эффективно. Однако, если модель перехода трудно оценить, подход без моделей, как правило, является лучшим выбором. Монте-Карло (МК), который является нашей сегодняшней..

Введение в RL: простой актер-критик для непрерывных действий
Часть 1 (Теория): (Перейдите к реализации кода в части 2 или к коду TensorFlow на Github , если хотите) Обучение с подкреплением соответствует нашему представлению о том, каким должен быть искусственный интеллект: мы бросаем роботизированного «агента» в среду, о которой он ничего не знает, и он учится многократно достигать цели с оптимальной производительностью. Сначала немного разговорного языка RL: Наш агент RL взаимодействует с миром (называемым средой ), используя..

Как подняться на подиум в AI Championships (почти) без ML
Многие люди склонны приравнивать искусственный интеллект (ИИ) к машинному обучению (МО). Некоторые даже расширяют это, утверждая, что только глубокое обучение является настоящим ИИ. Я сочувствую этому представлению. В конце концов, есть что-то волшебное в том, как мы можем достичь удивительных результатов, используя достаточное количество данных и вычислений для решения проблемы. Решение проблемы старомодным способом с жестко закодированными правилами далеко не так загадочно. Нигде..