Усиленное обучение (RL) играет центральную роль в разработке агентов искусственного интеллекта (ИИ), которые могут принимать разумные решения на основе опыта. Однако текущее понимание агентов RL ограничено агентами, которые учатся решать проблемы, а не учатся постоянно.
В новой статье A Definition of Continual Reinforcement LearningA Definition of Continual Reinforcement Learning исследовательская группа DeepMind переосмысливает проблемы RL как бесконечную адаптацию и дает чистое, общее и точное математическое определение непрерывного обучения с подкреплением (CRL). , стремясь продвигать исследования CRL на прочной концептуальной основе.
Команда начинает с определения сред, агентов и связанных артефактов. Они рассматривают интерфейс агент-среда как пары счетных наборов действий и наблюдений, а истории представляют собой последовательности пар действий-наблюдений, которые представляют возможные взаимодействия между агентом и средой. Следовательно, и среда, и агент могут быть определены как функции, относящиеся к интерфейсу агент-среда.
Они дают неформальное определение проблемы CRL как «Проблема RL является примером CRL, если лучшие агенты никогда не перестают учиться» и резюмируют два новых понимания, которые формализуют основные определения следующим образом:
- Мы можем понимать каждого агента как неявно ищущего набор поведений.
- Каждый агент будет либо продолжать этот поиск вечно, либо в конце концов остановится.
Чтобы формализовать эти два понимания, исследователи вводят пару операторов для агентов: 1) любой набор агентов генерирует другой набор агентов и 2) данный агент достигает набора агентов, чтобы определить обучение как неявный процесс поиска, а непрерывное обучение как непрерывность этого процесса поиска на неопределенный срок.
С учетом вышеупомянутых предпосылок команда формализует интуицию CRL как параметры захвата, в которых лучшие агенты не сходятся, более интуитивно, агенты будут продолжать свой неявный поиск по базовому поведению навсегда. Это определение побуждает…