«Успех в создании ИИ станет самым большим событием в истории человечества. К сожалению, она может оказаться и последней, если мы не научимся избегать рисков». - Стивен Хокинг

Сегодня все говорят об искусственном интеллекте (ИИ), и все хотят попасть в эту область и поработать над своими удивительными идеями. Но люди не полностью осознают, что происходит и как это происходит. Итак, в этом блоге мы попытаемся демистифицировать ИИ и дать базовое введение в обучение с подкреплением, которое является категорией машинного обучения.

Теперь перейдем к машинному обучению, которое является подмножеством ИИ. Машинное обучение — это область исследования, которая дает компьютерам возможность учиться без явного программирования.

Переход к обучению с подкреплением

Идея обучения с подкреплением вдохновлена ​​идеей о том, как работает человеческий мозг. Так что между ними много аналогий. Обучение с подкреплением (RL) — это метод проб и ошибок, в котором агент будет выполнять действия на основе политик и функции ценности и получать вознаграждение за выполнение действия. Награда определит, было ли выполненное действие хорошим или плохим ходом. Единственная цель агента — максимизировать вознаграждение.

Терминология

  • Агент —обучаемый, которому необходимо принимать решения и совершать действия.
  • Среда —это интерактивное место для агента, где он может учиться.
  • Действия —конкретная операция, выполняемая агентом.
  • Награда — сигнал, подаваемый средой агенту за выполнение определенного действия.
  • Состояние —состояние агента в определенный момент в среде.

Элементы обучения с подкреплением

  • Политика
  • Сигнал вознаграждения
  • Значение Функция
  • Модель (необязательно)

Политика -

  • Он определяет сопоставление между состоянием среды и действиями, которые необходимо предпринимать всякий раз, когда агент находится в этих состояниях.
  • Политика является ядром агента обучения с подкреплением в том смысле, что ее одной достаточно, чтобы определить поведение агента.
  • Это соответствует тому, что в психологии называется правилом или ассоциацией стимул-реакция.

Сигнал награды -

  • Среда отправит агенту сигнал вознаграждения в ответ на выполнение действия.
  • Агент будет считать действие хорошим, если награда высока, в противном случае оно будет плохим.
  • Сигнал вознаграждения является основной основой для изменения политики, поскольку, если действие, выбранное политикой, получает низкое вознаграждение, то политика может быть изменена, чтобы выбрать другое действие в будущем в той же ситуации.
  • В человеческом мозгу мы могли бы думать о сигнале вознаграждения как об аналогии с переживанием удовольствия или боли.

Значение Функция -

  • Сигнал вознаграждения указывает на то, что хорошо в непосредственном смысле, а функция ценности определяет, что хорошо в долгосрочной перспективе.
  • Ценность состояния — это общая сумма вознаграждения, которую агент может получить в будущем, начиная с этой точки.
  • Наиболее важной особенностью алгоритма RL является эффективная оценка значений, чтобы агент мог получить максимальное вознаграждение.

Модель -

  • Это модель окружающей среды.
  • Он имитирует поведение окружающей среды.
  • Модель может помочь сделать выводы о том, как будет вести себя среда.

Проблемы обучения с подкреплением

Самая важная проблема — найти компромисс между разведкой и эксплуатацией.

  • Использование.Агент должен использовать свои знания, которые он получил из своего прошлого опыта, чтобы получить максимальную награду за определенное действие.
  • Исследование.Агент должен исследовать различные действия, чтобы сделать лучший выбор действий в будущем и получить больше вознаграждения в долгосрочной перспективе. Таким образом, он должен попробовать различные действия.

Проблема в том, что мы не можем делать ни одну из них чрезмерно. Поэтому между ними должен быть компромисс.

Применение обучения с подкреплением

Одним из основных приложений являются автономные автомобили. Многие компании сосредоточены на их создании. Они работают по принципу обучения с подкреплением.

Заходи ко мне сюда — Cand bud.

Пожалуйста, хлопайте в ладоши и делитесь своими ценными отзывами в комментариях.

Справочник –

Ричард С. Саттон и Эндрю Г. Барто, «Обучение с подкреплением. Введение».

«Основы обучения с подкреплением», Университет Альберты.