DeepMind создает точную математическую основу непрерывного обучения с подкреплением

Усиленное обучение (RL) играет центральную роль в разработке агентов искусственного интеллекта (ИИ), которые могут принимать разумные решения на основе опыта. Однако текущее понимание агентов RL ограничено агентами, которые учатся решать проблемы, а не учатся постоянно.

В новой статье A Definition of Continual Reinforcement LearningA Definition of Continual Reinforcement Learning исследовательская группа DeepMind переосмысливает проблемы RL как бесконечную адаптацию и дает чистое, общее и точное математическое определение непрерывного обучения с подкреплением (CRL). , стремясь продвигать исследования CRL на прочной концептуальной основе.

Команда начинает с определения сред, агентов и связанных артефактов. Они рассматривают интерфейс агент-среда как пары счетных наборов действий и наблюдений, а истории представляют собой последовательности пар действий-наблюдений, которые представляют возможные взаимодействия между агентом и средой. Следовательно, и среда, и агент могут быть определены как функции, относящиеся к интерфейсу агент-среда.

Они дают неформальное определение проблемы CRL как «Проблема RL является примером CRL, если лучшие агенты никогда не перестают учиться» и резюмируют два новых понимания, которые формализуют основные определения следующим образом:

Мы можем понимать каждого агента как неявно ищущего набор поведений.
Каждый агент будет либо продолжать этот поиск вечно, либо в конце концов остановится.

Чтобы формализовать эти два понимания, исследователи вводят пару операторов для агентов: 1) любой набор агентов генерирует другой набор агентов и 2) данный агент достигает набора агентов, чтобы определить обучение как неявный процесс поиска, а непрерывное обучение как непрерывность этого процесса поиска на неопределенный срок.

С учетом вышеупомянутых предпосылок команда формализует интуицию CRL как параметры захвата, в которых лучшие агенты не сходятся, более интуитивно, агенты будут продолжать свой неявный поиск по базовому поведению навсегда. Это определение побуждает…

DeepMind создает точную математическую основу непрерывного обучения с подкреплением

Похожие вопросы