Обучение с подкреплением (RL) основано на механизмах вознаграждения и наказания. Агент получает вознаграждение за правильные ходы и наказание за неправильные. Поступая таким образом, агент минимизирует неправильные ходы и максимизирует количество правильных.

Цель этой статьи — изучить некоторые из реальных приложений обучения с подкреплением.

1. Самоуправляемые автомобили

Использование Глубокого обучения с подкреплением для автономного вождения было предложено в нескольких статьях. Среди многих аспектов беспилотных автомобилей — ограничение скорости в различных местах, зоны движения и предотвращение столкновений.

Приложения для обучения с подкреплением в автономном вождении включают оптимизацию траектории, планирование движения, динамическое определение пути, оптимизацию контроллера и обучение политике на основе сценариев для автомагистралей.

Автоматизированные политики парковки, например, могут упростить парковку. В то время как перестроение может быть выполнено с помощью Q-Learning, обгон может быть выполнен с использованием политики, которая позволяет избежать столкновений, сохраняя при этом постоянную скорость с течением времени.

AWS DeepRacer — это автономный гоночный автомобиль, предназначенный для оценки локализации в реальном времени на физической трассе. Система использует камеры для просмотра взлетно-посадочной полосы и систему обучения с подкреплением для управления дроссельной заслонкой и направлением.

Компания Wayve.ai успешно использовала обучение с подкреплением для обучения вождению автомобиля за день. Чтобы решить задачу следования по полосе, они использовали глубокое обучение с подкреплением. В их сетевой архитектуре было четыре сверточных слоя и три полносвязных слоя. Ниже приведен пример следования по полосе. Посередине вы можете увидеть вид с точки зрения водителя.

2. Подход обучения с подкреплением к НЛП (обработка естественного языка)

Некоторые из приложений RL — это обобщение текста, ответы на вопросы и машинный перевод в НЛП.

Юнсол Чой, Дэниел Хьюлетт и Якоб Ушкорейт представляют в этой статье основанный на RL подход к ответам на вопросы с учетом длинных текстов. В их методе сначала выбираются предложения из документа, которые имеют отношение к ответу на вопрос. Затем для получения ответов используется медленная рекуррентная нейронная сеть.

Абстрактное обобщение текста достигается с помощью комбинации обучения с учителем и обучения с подкреплением. Целью исследования является решение проблемы суммирования с помощью моделей кодировщика-декодера на основе RNN для более длинных документов. Эта исследовательская работа предлагает нейронную сеть с новым внутренним вниманием, которое непрерывно генерирует выходные данные отдельно на основе входных данных. В качестве методов обучения они используют прогнозирование слов под наблюдением и обучение с подкреплением.

Что касается синхронного машинного перевода, исследователи из Университета Колорадо и Университета Мэриленда предложили подход к обучению с подкреплением. Интересная часть этой работы заключается в том, что она учится, когда доверять предсказанным словам, и использует машинное обучение, чтобы решить, когда ждать большего ввода.

Глубокое RL для генерации диалогов разработано Стэнфордским университетом, Университетом штата Огайо и Microsoft Research. Глубокое обучение с подкреплением можно использовать для моделирования будущих вознаграждений в диалоге чат-бота. Это достигается путем моделирования разговоров с двумя виртуальными агентами. Методы градиентной политики используются для поощрения последовательностей, содержащих важные элементы коммуникации, такие как согласованность, информация и простота ответа.

3. Обучение с подкреплением в транспорте

Благодаря обучению с подкреплением транспортные компании могут повысить эффективность и снизить затраты. В системах райдшеринга диспетчеризация заказов — одно из лучших приложений RL (например, Uber). Существует множество факторов, влияющих на выбор водителя для пассажира, таких как прогнозирование спроса, планирование маршрута, управление автопарком и т. д. Проблема диспетчеризации заказов включает в себя как пространственное, так и временное измерение.

Как команде Uber удается упорядочивать свои данные и сплачивать команду? Отслеживание эксперимента кометы. Узнайте больше от Olcay Cirit от Uber.

В рамках обучения с подкреплением эту проблему можно сформулировать следующим образом:

  • Состояние состоит из географического статуса водителя, его необработанной временной метки и контекстуальных характеристик (например, статистика обслуживания водителя, индикаторы выходных).
  • Параметр Option представляет собой изменение состояния драйвера за несколько временных интервалов.
  • Политика представляет собой вероятность выбора определенного варианта в определенном состоянии. RL пытается оценить оптимальную политику или ее функцию ценности.

4. Применение обучения с подкреплением в здравоохранении

Политики, извлеченные из систем RL, можно использовать для лечения пациентов в здравоохранении. RL позволяет найти оптимальную политику на основе предыдущего опыта, не зная заранее математической модели биологических систем. В здравоохранении это делает подход более эффективным, чем подходы, основанные на контроле.

Медицинские RL перечислены как динамические режимы лечения (DTR) для хронических заболеваний и интенсивной терапии, а также для автоматизированной медицинской диагностики.

Вход DTR состоит из клинических наблюдений и оценок пациента. Выходные данные включают варианты лечения для каждого этапа. Они похожи на состояния в реальной жизни. RL может применяться в DTR для определения зависимых от времени решений о лечении конкретного пациента в определенное время.

Благодаря использованию RL в здравоохранении долгосрочные результаты могут быть улучшены за счет учета отсроченных медицинских эффектов.

Кроме того, RL использовался для обнаружения и создания оптимальных DTR для хронических заболеваний.

5. Применение RL в технике

С инженерной точки зрения Facebook создал платформу для обучения с подкреплением с открытым исходным кодом — Горизонт. Используя обучение с подкреплением, платформа оптимизирует крупномасштабные производственные системы. Horizon используется внутри Facebook:

  • Для того, чтобы сделать предложения более персонализированными.
  • Сделайте уведомления более значимыми для пользователей.
  • Улучшить качество потокового видео.

Кроме того, Horizon включает рабочие процессы для:

  • Смоделированные среды
  • Платформа предварительной обработки данных, распределенная по нескольким машинам
  • Обучение модели и экспорт

Состояние видеобуферов и оценки из других систем машинного обучения — два классических примера обучения с подкреплением при отображении видео.

Horizon может решить проблемы, аналогичные тем, которые связаны с производством, в том числе:

  • Масштабируемое развертывание
  • Нормализация признаков
  • Распределенное обучение
  • Обработка наборов данных с тысячами различных типов объектов и многомерными данными.

6. Применение RL в манипулировании робототехникой

С помощью глубокого обучения и обучения с подкреплением роботов можно научить захватывать широкий спектр объектов, даже те объекты, которые не видны во время обучения. Этот процесс можно использовать, например, при сборке продукции на конвейере.

QT-Opt — это вариант глубокого Q-Learning, сочетающий распределенную оптимизацию с крупномасштабной оптимизацией. С QT-Opt вы можете создавать непрерывные пространства действий для решения проблем робототехники. Сначала модель обучается в автономном режиме, затем развертывание на реальном роботе и тонкая настройка.

Система искусственного интеллекта Google использовала этот подход для захвата роботов, в котором 7 реальных роботов работали в течение 800 часов в течение 4 месяцев.

В этом эксперименте техника QT-Opt успешно захватила объекты, которые никогда раньше не видели, в 96% попыток захвата в 700 испытаниях.

Последние мысли

Хотя обучение с подкреплением по-прежнему является активной областью исследований, был достигнут значительный прогресс в развитии этой области и ее применении в реальном мире.

Области применения обучения с подкреплением, обсуждаемые в этой статье, едва касаются поверхности. Возможно, эта статья достаточно пробудила ваше любопытство, чтобы вы захотели углубиться в эту тему.

Счастливого обучения!

Примечание редактора. Heartbeat — это интернет-издание и сообщество, созданное участниками и посвященное предоставлению лучших образовательных ресурсов для специалистов по науке о данных, машинному обучению и глубокому обучению. Мы стремимся поддерживать и вдохновлять разработчиков и инженеров из всех слоев общества.

Независимая от редакции, Heartbeat спонсируется и публикуется Comet, платформой MLOps, которая позволяет специалистам по данным и командам машинного обучения отслеживать, сравнивать, объяснять и оптимизировать свои эксперименты. Мы платим нашим авторам и не продаем рекламу.

Если вы хотите внести свой вклад, перейдите к нашему призыву к участию. Вы также можете подписаться на получение наших еженедельных информационных бюллетеней (Еженедельник глубокого обучения и Информационный бюллетень Comet), присоединиться к нам в Slack и следить за Comet в Twitter и LinkedIn, чтобы получать ресурсы, события и многое другое, что поможет вам быстрее создавать лучшие модели машинного обучения.