Введение в обучение с подкреплением

«Успех в создании ИИ станет самым большим событием в истории человечества. К сожалению, она может оказаться и последней, если мы не научимся избегать рисков». - Стивен Хокинг

Сегодня все говорят об искусственном интеллекте (ИИ), и все хотят попасть в эту область и поработать над своими удивительными идеями. Но люди не полностью осознают, что происходит и как это происходит. Итак, в этом блоге мы попытаемся демистифицировать ИИ и дать базовое введение в обучение с подкреплением, которое является категорией машинного обучения.

Теперь перейдем к машинному обучению, которое является подмножеством ИИ. Машинное обучение — это область исследования, которая дает компьютерам возможность учиться без явного программирования.

Переход к обучению с подкреплением

Идея обучения с подкреплением вдохновлена идеей о том, как работает человеческий мозг. Так что между ними много аналогий. Обучение с подкреплением (RL) — это метод проб и ошибок, в котором агент будет выполнять действия на основе политик и функции ценности и получать вознаграждение за выполнение действия. Награда определит, было ли выполненное действие хорошим или плохим ходом. Единственная цель агента — максимизировать вознаграждение.

Терминология

Агент —обучаемый, которому необходимо принимать решения и совершать действия.
Среда —это интерактивное место для агента, где он может учиться.
Действия —конкретная операция, выполняемая агентом.
Награда — сигнал, подаваемый средой агенту за выполнение определенного действия.
Состояние —состояние агента в определенный момент в среде.

Элементы обучения с подкреплением

Политика
Сигнал вознаграждения
Значение Функция
Модель (необязательно)

Политика -

Он определяет сопоставление между состоянием среды и действиями, которые необходимо предпринимать всякий раз, когда агент находится в этих состояниях.
Политика является ядром агента обучения с подкреплением в том смысле, что ее одной достаточно, чтобы определить поведение агента.
Это соответствует тому, что в психологии называется правилом или ассоциацией стимул-реакция.

Сигнал награды -

Среда отправит агенту сигнал вознаграждения в ответ на выполнение действия.
Агент будет считать действие хорошим, если награда высока, в противном случае оно будет плохим.
Сигнал вознаграждения является основной основой для изменения политики, поскольку, если действие, выбранное политикой, получает низкое вознаграждение, то политика может быть изменена, чтобы выбрать другое действие в будущем в той же ситуации.
В человеческом мозгу мы могли бы думать о сигнале вознаграждения как об аналогии с переживанием удовольствия или боли.

Значение Функция -

Сигнал вознаграждения указывает на то, что хорошо в непосредственном смысле, а функция ценности определяет, что хорошо в долгосрочной перспективе.
Ценность состояния — это общая сумма вознаграждения, которую агент может получить в будущем, начиная с этой точки.
Наиболее важной особенностью алгоритма RL является эффективная оценка значений, чтобы агент мог получить максимальное вознаграждение.

Модель -

Это модель окружающей среды.
Он имитирует поведение окружающей среды.
Модель может помочь сделать выводы о том, как будет вести себя среда.

Проблемы обучения с подкреплением

Самая важная проблема — найти компромисс между разведкой и эксплуатацией.

Использование.Агент должен использовать свои знания, которые он получил из своего прошлого опыта, чтобы получить максимальную награду за определенное действие.
Исследование.Агент должен исследовать различные действия, чтобы сделать лучший выбор действий в будущем и получить больше вознаграждения в долгосрочной перспективе. Таким образом, он должен попробовать различные действия.

Проблема в том, что мы не можем делать ни одну из них чрезмерно. Поэтому между ними должен быть компромисс.

Применение обучения с подкреплением

Одним из основных приложений являются автономные автомобили. Многие компании сосредоточены на их создании. Они работают по принципу обучения с подкреплением.

Заходи ко мне сюда — Cand bud.

Пожалуйста, хлопайте в ладоши и делитесь своими ценными отзывами в комментариях.

Справочник –

Ричард С. Саттон и Эндрю Г. Барто, «Обучение с подкреплением. Введение».

«Основы обучения с подкреплением», Университет Альберты.