«Успех в создании ИИ станет самым большим событием в истории человечества. К сожалению, она может оказаться и последней, если мы не научимся избегать рисков». - Стивен Хокинг
Сегодня все говорят об искусственном интеллекте (ИИ), и все хотят попасть в эту область и поработать над своими удивительными идеями. Но люди не полностью осознают, что происходит и как это происходит. Итак, в этом блоге мы попытаемся демистифицировать ИИ и дать базовое введение в обучение с подкреплением, которое является категорией машинного обучения.
Теперь перейдем к машинному обучению, которое является подмножеством ИИ. Машинное обучение — это область исследования, которая дает компьютерам возможность учиться без явного программирования.
Переход к обучению с подкреплением
Идея обучения с подкреплением вдохновлена идеей о том, как работает человеческий мозг. Так что между ними много аналогий. Обучение с подкреплением (RL) — это метод проб и ошибок, в котором агент будет выполнять действия на основе политик и функции ценности и получать вознаграждение за выполнение действия. Награда определит, было ли выполненное действие хорошим или плохим ходом. Единственная цель агента — максимизировать вознаграждение.
Терминология
- Агент —обучаемый, которому необходимо принимать решения и совершать действия.
- Среда —это интерактивное место для агента, где он может учиться.
- Действия —конкретная операция, выполняемая агентом.
- Награда — сигнал, подаваемый средой агенту за выполнение определенного действия.
- Состояние —состояние агента в определенный момент в среде.
Элементы обучения с подкреплением
- Политика
- Сигнал вознаграждения
- Значение Функция
- Модель (необязательно)
Политика -
- Он определяет сопоставление между состоянием среды и действиями, которые необходимо предпринимать всякий раз, когда агент находится в этих состояниях.
- Политика является ядром агента обучения с подкреплением в том смысле, что ее одной достаточно, чтобы определить поведение агента.
- Это соответствует тому, что в психологии называется правилом или ассоциацией стимул-реакция.
Сигнал награды -
- Среда отправит агенту сигнал вознаграждения в ответ на выполнение действия.
- Агент будет считать действие хорошим, если награда высока, в противном случае оно будет плохим.
- Сигнал вознаграждения является основной основой для изменения политики, поскольку, если действие, выбранное политикой, получает низкое вознаграждение, то политика может быть изменена, чтобы выбрать другое действие в будущем в той же ситуации.
- В человеческом мозгу мы могли бы думать о сигнале вознаграждения как об аналогии с переживанием удовольствия или боли.
Значение Функция -
- Сигнал вознаграждения указывает на то, что хорошо в непосредственном смысле, а функция ценности определяет, что хорошо в долгосрочной перспективе.
- Ценность состояния — это общая сумма вознаграждения, которую агент может получить в будущем, начиная с этой точки.
- Наиболее важной особенностью алгоритма RL является эффективная оценка значений, чтобы агент мог получить максимальное вознаграждение.
Модель -
- Это модель окружающей среды.
- Он имитирует поведение окружающей среды.
- Модель может помочь сделать выводы о том, как будет вести себя среда.
Проблемы обучения с подкреплением
Самая важная проблема — найти компромисс между разведкой и эксплуатацией.
- Использование.Агент должен использовать свои знания, которые он получил из своего прошлого опыта, чтобы получить максимальную награду за определенное действие.
- Исследование.Агент должен исследовать различные действия, чтобы сделать лучший выбор действий в будущем и получить больше вознаграждения в долгосрочной перспективе. Таким образом, он должен попробовать различные действия.
Проблема в том, что мы не можем делать ни одну из них чрезмерно. Поэтому между ними должен быть компромисс.
Применение обучения с подкреплением
Одним из основных приложений являются автономные автомобили. Многие компании сосредоточены на их создании. Они работают по принципу обучения с подкреплением.
Заходи ко мне сюда — Cand bud.
Пожалуйста, хлопайте в ладоши и делитесь своими ценными отзывами в комментариях.
Справочник –
Ричард С. Саттон и Эндрю Г. Барто, «Обучение с подкреплением. Введение».
«Основы обучения с подкреплением», Университет Альберты.