Введение
Действия новорожденного или начинающего спортсмена изначально случайны или неуклюжи, но с повторным опытом человек становится способным достигать целей более эффективно и надежно. Исследования поведения животных описывали такие процессы приобретения поведения с помощью концепций вознаграждения и наказания. Вознаграждение способствует выполнению или подкрепляет действие, которое вызывает его выполнение (Thorndike, 1898). Наказание можно рассматривать как отрицательный сигнал вознаграждения, который уменьшает повторение действия, вызывающего его, или усиливает действие, избегающее его выполнения. Удивительно, как животное может приобретать разнообразные сложные формы поведения, связывая свои действия с последующими положительными и отрицательными наградами либо спонтанно в природе, либо в результате обучения людей. Это явление дало исследователям искусственного интеллекта хорошую мотивацию для поиска компьютерных алгоритмов, позволяющих машинам приобретать различные функции просто на основе сигналов обратной связи с вознаграждением (Barto et al., 1983).
Действия новорожденного или начинающего спортсмена изначально случайны или неуклюжи, но с повторным опытом человек становится способным достигать целей более эффективно и надежно. Исследования поведения животных описывали такие процессы приобретения поведения с помощью концепций вознаграждения и наказания. Вознаграждение способствует выполнению или подкрепляет действие, которое вызывает его выполнение (Thorndike, 1898). Наказание можно рассматривать как отрицательный сигнал вознаграждения, который уменьшает повторение действия, вызывающего его, или усиливает действие, избегающее его выполнения. Удивительно, как животное может приобретать разнообразные сложные формы поведения, связывая свои действия с последующими положительными и отрицательными наградами либо спонтанно в природе, либо в результате обучения людей. Это явление дало исследователям искусственного интеллекта хорошую мотивацию для поиска компьютерных алгоритмов, позволяющих машинам приобретать различные функции просто на основе сигналов обратной связи с вознаграждением (Barto et al., 1983).
Продукты таких исследований в совокупности называются обучением с подкреплением и применялись для решения различных задач управления и оптимизации (Sutton & Barto, 2018) (далее SB). С середины девяностых нейробиологам стало известно об интересных параллелях между ключевыми сигналами, используемыми в алгоритмах обучения с подкреплением, и тем, что они обнаружили в данных нейронной записи и визуализации мозга. Сотрудничество теоретиков и экспериментаторов способствовало лучшему пониманию функций, в первую очередь, нейромедиатора дофамина и нейронной цепи базальных ганглиев (Barto, 1995; Montague et al., 1995; Schultz et al., 1997). Этот успех теперь заинтересовал психиатров, социологов и экономистов, которые пытаются понять, как люди принимают правильные (или плохие) решения в реальном мире (Doya, 2007; Glimcher & Fehr, 2013).
Обучение с подкреплением — одна из трех основных основ машинного обучения. Одним из них является обучение с учителем, которое принимает явный целевой выходной сигнал и минимизирует ошибку между выходными данными обучаемого и целевым выходными данными. Другим является обучение без учителя, которое не получает целевого вывода, но фиксирует статистические характеристики входного сигнала, такие как кластеризация и уменьшение размерности. Обучение с подкреплением занимает промежуточное положение между обучением с учителем и обучением без учителя, требуя скалярного сигнала вознаграждения для серии выходных данных действия.
Марковский процесс принятия решений
Базовая теория обучения с подкреплением разработана для марковского процесса принятия решений (MDP), как показано на рисунке 1. агент отслеживает состояния среды и выполняет действие a. Среда возвращает скалярный сигнал вознаграждения r и переходит в новое состояние s 0 в соответствии с распределением вероятностей p( r, s′| s, a). Агентом может быть животное, человек, робот или программа. Для агентов-животных наградой может быть еда, вода или боль. У людей деньги или общественная слава также могут быть сильной наградой.
Цель агента — улучшить свою политику действий P(a|s), чтобы полученное вознаграждение было максимальным в долгосрочной перспективе. Точнее говоря, качество политики оценивается по ожидаемым совокупным будущим вознаграждениям.
где E[ ] представляет ожидание (среднее) в отношении стохастичности динамики окружающей среды p(r, s′|s, a) в сочетании с политикой агента p(a|s) . Параметр γ называется фактором дисконтирования во времени и указывает, насколько далеко в будущем заинтересован агент; только немедленное вознаграждение rₜ для γ = 0 и дальше в будущем, когда γ приближается к 1.
В рамках этой структуры цель обучения с подкреплением может быть сформулирована как поиск оптимальной политики, которая максимизирует ожидаемые будущие вознаграждения (1), начиная с любого состояния. Что делает обучение с подкреплением интересным (и трудным), так это то, что действие aₜ влияет не только на немедленное вознаграждение rₜ, но также влияет на следующее состояние sₜ₊₁, что может повлиять на будущие награды rₜ₊1, rₜ+2 и т. д. С другой стороны, данное вознаграждение rₜ может быть связано не с тем, что оно непосредственно предшествует действию aₜ , а также с прошлыми действиями aₜ-1 , aₜ-2 и так далее. Проблема определения того, какие прошлые действия и состояния несут ответственность за данное вознаграждение, известна как проблема распределения временных кредитов, которая является основной проблемой обучения с подкреплением.
Еще одна важная проблема в обучении с подкреплением — исследование. Агент должен попробовать разные действия в разных состояниях, чтобы выяснить, что хорошо, а что плохо. По мере обучения агент должен предпринимать действия, которые с большей вероятностью принесут больше вознаграждения. Как найти баланс между попыткой чего-то нового и сосредоточением внимания на заведомо хорошем выборе называется компромисс между исследованием и эксплуатацией.
На рисунке 3 показан простой пример, который использовался в функциональном МРТ-исследовании, посвященном мозговому механизму временного дисконтирования (Tanaka et al., 2004). Это MDP с тремя состояниями и двумя действиями. Обычно действие a = 1 сдвигает состояние влево с вознаграждением r = 1, а действие a = 2 сдвигает состояние вправо с отрицательным вознаграждением из r = -1. Однако из крайнего левого состояния s = 1 действие a = 1 переводит состояние в крайнее правое s = 3 с большим отрицательным вознаграждением. r = -5, а из крайнего правого состояния s = 3 действие a = 2 переводит состояние в крайнее левое s = 1 с большим положительным вознаграждением r = 5. Предположим, вы находитесь в среднем состоянии s = 2, какое действие вы предпримете? Если вы просто следуете немедленному вознаграждению большего размера, вы должны взять a = 1, чтобы получить положительное вознаграждение, которое переместит вас к s = 1, а затем взять a = 2, чтобы избежать большого отрицательного вознаграждения, которое возвращает вас к s = 2. Таким образом, вы будете циклически переключаться между s = 1 и s = 2 без чистого выигрыша. Умный читатель взял бы a = 2 при s = 1 и s = 2, несмотря на немедленные потери, чтобы достичь s = 3, а затем возьмите a = 2, чтобы получить большую награду. В реальной жизни есть похожие случаи, которые требуют дорогостоящей работы для достижения важной цели, такой как публикация статьи или получение докторской степени. Может ли простой вычислительный агент решить эту задачу?
Функция ценности действия
Стандартным инструментом обучения с подкреплением для оценки качества действия в долгосрочной перспективе является функция ценности действия, которая определяется как
Функция ценности действия Q(s, a) оценивает, какое вознаграждение в будущем получит агент, выполнив действие a в состоянии s, и затем следуя настоящей политике. В психологии это может быть связано с мотивацией или побуждением к выполнению определенного действия в определенной ситуации.
Для MDP с дискретными состояниями и действиями функция значения действия может храниться в таблице состояния × действия, а ее записи могут обновляться с помощью алгоритма обучения. . Для непрерывного или очень большого количества состояний или действий для представления функции значения действия используется аппроксиматор функции, такой как искусственная нейронная сеть (ИНС) (Mnih et al., 2015). .
Если функция значения действия изучена для всех пар состояние-действие, оптимальная политика состоит в том, чтобы выбрать действие, которое максимизирует функцию значения действия в текущем состоянии:
которая называется жадная политика. Однако во время обучения необходимо выбрать политику, способствующую исследованию. Простой способ называется ε-жадная политика, при котором случайное действие выбирается с вероятностью ε, а в противном случае применяется жадная политика.
Другим распространенным способом выбора действия с использованием функции значения действия является выбор Больцмана или softmax:
где функция ценности действия рассматривается как отрицательная энергия, так что действие большей ценности действия предпринимается с большей вероятностью. Параметр β называется обратная температура и управляет случайностью выбора. При β = 0 выбор полностью случаен, а при увеличении β действия с более высокими значениями выбираются чаще, так что выбор становится более жадным.
Sarsa и Q Learning
Как агент может изучить функцию ценности действия? В общем, после прохождения последовательностей состояния, действия и вознаграждения в качестве оценки можно использовать среднее значение вознаграждения со скидкой после каждой пары состояние-действие. Это называется методом Монте-Карло и известно, что он не очень эффективен, особенно когда динамика среды является стохастической (SB, глава 5). Более эффективным способом является использование рекурсивной связи между последующими состояниями и действиями:
который вытекает из экспоненциального дисконтирования будущих вознаграждений.
Отклонение от этой рекурсивной зависимости можно обнаружить по временной разнице (TD)» ошибке:
Затем функция значения действия может быть обновлена как
где α — параметр скорости обучения. Это известно как алгоритм Сарсы, так как он основан на последовательности, где α — параметр скорости обучения. Это известно как алгоритм Сарсы, так как он основан на последовательности sₜ , aₜ , rₜ , sₜ+1 , aₜ+1 .
Другой алгоритм обучения, использующий функцию значения действия, называется Q-обучение (Watkins, 1989; Watkins & Dayan, 1992), в котором используется несколько другая ошибка TD.
Это означает, что из последующего состояния предполагается жадная политика, даже если агент фактически использует нежадную исследовательскую политику. Это называется обучение вне политики, а Sarsa называется обучение в соответствии с политикой. Преимущество обучения вне политики состоит в том, что оптимальную функцию ценности с детерминированной политикой можно изучить, следуя стохастической исследовательской политике. Недостатки обучения вне политики заключаются в том, что производительность во время обучения может быть скомпрометирована из-за пренебрежения эффектом исследования, и что обучение может быть нестабильным в сочетании с аппроксиматором функций (см. SB, главы 6 и 11).
Актер-критик и функция ценности состояния
Другой класс алгоритмов обучения с подкреплением называется архитектурой актор-критик (Barto et al., 1983). Актор реализует некоторую форму политики p(a|s, θ) с вектором параметров θ. Критик оценивает, насколько хорошо работает политика актера. Более конкретно, критик предсказывает ожидаемую будущую награду от каждого состояния, следуя текущей политике как функция ценности состояния:
Для дискретных состояний функция значения состояния может храниться в векторе, а аппроксиматор функции используется для непрерывного или большого количества состояний (Silver et al., 2016). В психологии функция ценности состояния может быть связана с перспективой или настроением, которое создает данная ситуация.
Динамическое программирование
теория динамического программирования предлагает способы использования функций вознаграждения и перехода состояний для получения функции оптимального значения, которой должна удовлетворять оптимальная политика (Bellman, 1952)( СБ, глава 4). Рекурсивная связь функции значения состояния в приведенном ниже уравнении может быть выражена функциями вознаграждения и перехода как
Это называется уравнение Беллмана для политики p(a|s). Для оптимальной политики функция ценности состояния удовлетворяет
Это называется уравнением оптимальности Беллмана, а его решение V*(s) называется функцией значения оптимального состояния. Несмотря на то, что оптимальных политик может быть несколько, функция оптимального значения уникальна. После получения оптимальной функции значения состояния оптимальная политика задается действием, которое максимизирует правую часть уравнения выше для каждого состояния.
Уравнение оптимальности Беллмана представляет собой одновременное нелинейное уравнение для количества состояний, и его решение может быть довольно сложным, поскольку количество состояний становится большим.
Планирование действий
Когда динамика перехода между состояниями детерминирована или почти детерминирована, реалистичной стратегией является поиск последовательности действий, дающей большое кумулятивное вознаграждение. Для задачи, которая выполняется за небольшое количество шагов, возможен поиск до конца последовательности. В задаче с большим количеством шагов поиск последовательности действий может быть усечен с помощью оценки функции значения состояния. Например, ожидаемое вознаграждение за двухшаговый переход можно оценить как:
В сложных задачах, таких как игра в го, вычисление оптимальной функции значения состояния для всех возможных состояний является сложной задачей, а поиск всех возможных последовательностей действий до конца игры требует огромного количества времени. Однако хорошая комбинация функции приближенного значения и поиска действия с использованием модели перехода состояний, такой как поиск по дереву Монте-Карло (MCTS) (Coulom, 2006) (см. SB, глава 8) , могут дать практические решения (Silver et al., 2016, 2018) (см. SB, глава 16).
Предсказание будущих состояний при планировании действий на основе моделей можно рассматривать как процесс воображения или мысленного моделирования.
Частично наблюдаемые марковские процессы принятия решений
Модель перехода состояний может быть полезна не только для планирования будущих действий, но и для оценки текущего состояния по предыдущим действиям, когда сенсорное наблюдение подвержено шуму, задержке или окклюзии. В частично наблюдаемом марковском процессе принятия решений (POMDP; см. SB, глава 17) агент получает стохастическое наблюдение за состоянием окружающей среды как p(o|s). Простое решение POMDP состоит в том, чтобы изучить политику, основанную на наблюдении p(a|o), но это часто неоптимально. Когда агент имеет доступ к моделям сенсорного наблюдения и перехода состояния, можно использовать динамическую байесовскую структуру для обновления вероятностной оценки состояния. Из предыдущей оценки вероятности состояния p(sₜ-1) и предыдущего действия aₜ-1 априорная вероятность текущего состояния определяется моделью перехода состояния как
Это можно объединить с вероятностью из текущего наблюдения P(oₜ|sₜ)как
Вероятность апостериорного состояния p(sₜ|oₜ, aₜ-1) называется состоянием доверия и может многократно использоваться в качестве априорной вероятности p(sₜ) для вычисления следующего состояния доверия.
Стандартный способ выбора действия в условиях сенсорной неопределенности состоит в усреднении значений действия по возможным состояниям.
и предпримите действия, которые максимизируют его.
Идентификация лежащего в основе состояния из зашумленных наблюдений является центральной проблемой сенсорного восприятия или перцептивного принятия решений, и действия человека часто отражают неуверенность или уверенность в воспринимаемом состоянии.
Обучение с подкреплением для искусственного интеллекта
В создании интеллектуальных машин может быть несколько подходов. Один из них заключается в анализе конкретных особенностей данной проблемы и разработке алгоритма решения для конкретной предметной области. Другой — имитировать навыки людей-экспертов. Третий подход заключается в том, чтобы позволить машинам найти хорошее решение на опыте. Создание машины, которая учится как человек, было давней мечтой исследователей искусственного интеллекта (ИИ). Классический пример — Игрок в шашки Сэмюэля, который включал в себя идею распространения счета доски на последующие состояния (Самуэль, 1959) (см. SB, глава 16). Современная форма обучения TD была представлена в (Barto et al., 1983), которая продемонстрировала свою эффективность путем моделирования задачи балансировки тележки и шеста. Уоткинс прояснил связь между TD-обучением и динамическим программированием и вывел алгоритм Q-обучения (Watkins, 1989; Watkins & Dayan, 1992). Первой практической демонстрацией силы TD-обучения стал TD-Gammon, который достиг уровня чемпиона мира (Tesauro, 1994).
Глубокое обучение с подкреплением
Самый последний прогресс в обучении с подкреплением и ИИ в целом достигается за счет сочетания TD-обучения с глубокими нейронными сетями. Было показано, что сочетание обучения TD с аппроксимацией функции может вызвать нестабильность, поскольку обновление текущего значения V(sₜ) может повлиять на его целевое значение V(sₜ+1) как побочный эффект обобщения аппроксиматором функций (Boyan & Moore, 1995; Tsitsiklis & Roy, 1997). Исследователи из DeepMind нашли подход к преодолению этой проблемы с помощью двух методов (Mnih et al., 2015).
Один из них состоит в том, чтобы сохранить копию сети аппроксиматора функции значения, называемой целевой сетью для вычисления V(sₜ+1), как в уравнении ошибки TD, и обновлять ее только периодически после того, как сеть для вычисления V(sₜ) был обновлен после многих переходов состояний. Это позволяет избежать завышения целевого значения из-за обобщения на смежные во времени состояния.
Другой способ — сохранить в памяти последовательность состояние-действие-вознаграждение и обновить функцию ценности путем случайной выборки опыта состояние-действие-вознаграждение-состояние из памяти, что называется воспроизведение опыта. Это позволяет избежать трудностей обучения на временно коррелированных образцах. Преимущество воспроизведения опыта, которое также было продемонстрировано в ранних работах (Moore & Atkeson, 1993), было вдохновлено механизмом эпизодической памяти гиппокампа (Hassabis et al., 2017).
Эффективность комбинации была продемонстрирована глубокой Q-сетью, которая принимает изображения экрана компьютерной игры в качестве входных данных состояния и значения действий для операций джойстика и кнопок в качестве выходных данных.
Сила сочетания обучения TD с глубокой нейронной сетью была дополнительно продемонстрирована в игре Го. В оригинальной версии AlphaGo обучение изначально проводилось по игровым записям человека-эксперта (Silver et al., 2016). В более поздних версиях AlphaGo Zero (Silver et al., 2017) обучение основывалось исключительно на собственных смоделированных играх программы. Более того, в Alpha Zero (Silver et al., 2018) тот же алгоритм добился сверхчеловеческих результатов в Го, Шахматах и Сёги.
Робототехника
Исследователи робототехники также мечтали создать робота, способного обучаться различным двигательным навыкам методом проб и ошибок. Первые усилия включали создание робота, который учится ходить или вставать (Morimoto & Doya, 2001). Основными проблемами при применении обучения с подкреплением к роботам являются необходимость непрерывных многомерных действий для точных движений, а также время, стоимость и опасность, связанные с пробами и ошибками в физической среде.
Алгоритмы «актор-критик» и другие алгоритмы, использующие параметризованную политику, обычно используются для непрерывного контроля (Peters & Schaal, 2008). Использование физического симулятора для раннего исследовательского обучения с последующим переходом к дополнительному обучению в реальных условиях (симуляция в реальность) также является обычной практикой. В последнее время сочетание глубокого обучения с обучением с подкреплением делает успехи в задачах управления на основе зрения, таких как манипулирование различными объектами (Gu et al., 2017).
Обучение с подкреплением в мозгу
Концепция обучения с подкреплением исходит из того, как животные учатся поведению. Развитие алгоритмов обучения с подкреплением предоставило некоторые правдоподобные механизмы их реализации в мозгу. Действительно, за последние пару десятилетий в механизме обучения с подкреплением мозга были достигнуты многочисленные успехи.
Дофаминовое кодирование ошибки временной разницы
Прорывным открытием в отношении механизма обучения с подкреплением в мозге стало то, что дофаминовые нейроны среднего мозга реагируют на ошибку предсказания вознаграждения (Schultz, 1998; Schultz et al., 1993). Шульц и его коллеги зафиксировали активность дофаминовых нейронов, когда обезьяны выполняли такие действия, как тянущиеся за едой или нажимающие на рычаг для получения сока (рис. 4). До обучения или когда не было прогностического сигнала, дофаминовые нейроны реагировали на вознаграждение. Когда животное научилось ассоциировать сенсорный сигнал с доставкой награды, дофаминовые нейроны начали реагировать на сенсорные сигналы, прогнозирующие вознаграждение, и реакция на предсказанное вознаграждение уменьшилась. Когда после обучения отсутствовало вознаграждение, возбуждение дофаминовых нейронов подавлялось в то время, когда ожидалось вручение вознаграждения. Это интересные результаты сами по себе, но они наиболее интересны для тех, кто знаком с теорией обучения с подкреплением, потому что она точно соответствует тому, что делает ошибка TD.
Перед обучением, предполагая, что функция значений V(s) = 0 для всех состояний, сигнал TD δₜ равен вознаграждению rₜ . Когда новое состояние sₜ+1 позволяет агенту предсказать предстоящее вознаграждение, V(sₜ+1) становится положительным и, следовательно, ошибка TD δₜ отвечает положительным импульсом, даже если вознаграждение rₜ = 0. При представлении прогнозируемого вознаграждения значение V(sₜ+1) снижается до базового уровня, так что временная разница γV(sₜ+1) - V(sₜ) становится отрицательным и отменяет положительное вознаграждение rₜ.
Эта параллель между активностью дофаминовых нейронов и сигналом TD вдохновила на теоретические предположения, что дофаминовые нейроны и их основная проекционная мишень, стриатум, могут осуществлять обучение с подкреплением TD-типа (Barto, 1995; Houk et al., 1995a; Montague et al. , 1996; Schultz et al., 1997), как показано на рисунке 5 (ниже).
Совсем недавно Yagishita и его коллеги исследовали дофамин-зависимую синаптическую пластичность с использованием оптической активации пресинаптического глутамата, постсинаптической активации внутриклеточным электродом и оптогенетической стимуляции дофаминовых окончаний (Yagishita et al., 2014). В нейронах полосатого тела, экспрессирующих рецепторы типа D1, пре-пост-стимуляция с последующим введением дофамина в течение примерно 1 секунды вызывала синаптическую потенциацию. В стриарном нейроне, экспрессирующем рецепторы типа D2, которые обладают более высокой аффинностью (чувствительностью), чем рецепторы типа D1, подавление высвобождения дофамина вызывает синаптическую потенциацию (Iino et al., 2020).
Кодирование ценностей и действий в базальных ганглиях
TD-кодирование ошибок дофаминовых нейронов и дофамин-зависимая синаптическая пластичность в стриатуме убедительно свидетельствуют о том, что базальные ганглии играют главную роль в обучении с подкреплением в мозге (Houk et al., 1995b). Базальные ганглии образуют параллельные контуры с входом от коры головного мозга и выходом через таламус обратно в кору (Alexander & Crutcher, 1990). Учитывая зависимую от дофамина синаптическую пластичность, можно предположить, что полосатые нейроны участвуют в функциях состояния обучения или ценности действия (рис. 3). Самедзима и др. показали в задаче свободного выбора, что многие нейроны полосатого тела представляют собой предсказание вознаграждения за конкретное действие (Samejima et al., 2005).
У грызунов петли кортико-базальных ганглиев грубо подразделяются на моторную петлю, проходящую через дорсолатеральный полосатый телес, префронтальную петлю, проходящую через дорсомедиальный стриатум, и лимбическую петлю, проходящую через вентральный стриатум (Voorn et al., 2004). Нейронная запись полосатого тела крыс также показала нейроны, кодирующие значение действия, в дорсальном полосатом теле и нейроны, кодирующие значение состояния, в вентральном полосатом теле (Ito & Doya, 2015).
Стриатум состоит из двух компартментов: стриосома, выступающая к дофаминовым нейронам среднего мозга, и матрикс (или участок), выступающий к бледному шару (Gerfen, 1992; Graybiel & Ragsdale, 1978). Бледный шар состоит из внутреннего сегмента (GPi), который проецируется на таламус, и внешнего сегмента (GPe), который проецируется на GPi как напрямую, так и через субталамическое ядро (STN), которые получают входные данные от коры. Корковый вход через базальные ганглии имеет три пути: прямой путь через полосатое тело к GPi; непрямой путь через стриатум, GPe и субталамическое ядро (STN) к GPi; и гиперпрямой путь через STN к GPi (Nambu et al., 2002). В чем причина таких множественных путей?
Недавно генетически кодируемые индикаторы кальция (GECI) и оптогенетическая манипуляция позволили специфичную для клеточного типа запись и манипулирование нейронами полосатого тела. В стриатуме грызунов нейроны, экспрессирующие D1-рецептор, проецируются на прямой путь, вызывая двойное торможение, тогда как нейроны, экспрессирующие D2-рецептор, проецируются на непрямой путь, включающий тройное торможение. Было высказано предположение, что они участвуют в инициировании и подавлении действия (Alexander & Crutcher, 1990; Delong, 1990) или обучении на вознаграждении и наказании (Frank et al., 2004; Hikida et al., 2010).
Оптогенетическая стимуляция экспрессирующих D1-рецептор нейронов прямого пути в дорсомедиальном стриатуме вызывала усиливающий эффект, в то время как стимуляция экспрессирующих D2-рецептор нейронов непрямого пути вызывала отталкивающий эффект (Kravitz et al., 2012). Интересно, что измерение популяционной активности нейронов полосатого тела D1 и D2 с помощью фотометрии волокон показало, что обе популяции активируются в начале действий (Cui et al., 2013). Это может быть связано с тем, что начало нового действия часто является концом предыдущего действия. В задаче последовательного нажатия рычага повторяющихся компонентов (например, LLRR) оптогенетическая активация нейронов D1 индуцируется чрезмерным повторением (например, LLLRR), в то время как активация нейронов D2 вызывает преждевременный переход (например, LRR), предполагая, что они участвуют в залипании и переключения соответственно (Geddes et al., 2018).
Действия и обучение без модели/на основе модели
Поведение людей и животных можно классифицировать как целенаправленное, зависящее от текущих потребностей, или привычное, рутинно реагирующее на заданные стимулы. Это поведение диссоциировано парадигмой обесценивания, в которой ценность определенной пищи изменяется в результате насыщения или отравления. Balleine и коллеги продемонстрировали, что префронтально-дорсомедиальная петля полосатого тела и моторно-дорсолатеральная петля полосатого тела соответственно участвуют в целенаправленном и привычном поведении (Balleine et al., 2007). Доу и его коллеги далее постулировали, что целенаправленное и привычное поведение основано на прогнозирующем поиске на основе модели и реактивном выборе без модели (Daw et al., 2005). В то время как стратегии, основанные на моделях, часто связывают с префронтальной и теменной корой (Glascher et al., 2010), исследования функциональной МРТ также предполагают участие базальных ганглиев (Daw et al., 2011) (рис. 6 ниже). Другое исследование с использованием многоступенчатого планирования действий показало активацию не только областей коры, но также мозжечка и базальных ганглиев (Fermin et al., 2016), что согласуется с мнением о том, что мозжечок предсказывает результирующие состояния кандидатов на действия, используя внутренние модели. полученные в результате контролируемого обучения, и что базальные ганглии оценивают их качество по функции ценности, полученной в результате обучения с подкреплением (Doya, 1999, 2000).
Дихотомия между системами без моделей и системами, основанными на моделях, имеет некоторое сходство с другими дихотомиями в психологии и когнитивной науке (Даян, 2009), такими как процедурная и декларативная, Система 1 и Система 2 (Кахнеман, 2011; Канеман и Тверски, 1979). , бессознательное и сознательное (Bengio, 2017).
Заключение
Обучение с подкреплением — это теоретическая основа, которая способствовала плодотворному взаимодействию между нейробиологией, психиатрией, психологией, социологией и экономикой. Это связано с тем, что постановка задачи обучения с подкреплением отражает основные черты поведения животных и человека.
В настоящее время существует несколько основных проблем и ограничений в алгоритмах обучения с подкреплением. Одним из них является эффективность выборки, означающая, что для обучения требуется много данных. В задачах, где доступны симуляторы, компьютерный агент может иметь неограниченное взаимодействие со стационарной средой. Успех AlphaGo основан на огромном количестве игр, в которые ни один человек не может попасть за всю жизнь (Silver et al., 2017). В реальных физических средах, таких как управление роботом или взаимодействие с человеком, получение реального опыта может занять много времени или дорого, а среда может постоянно меняться, так что медленно учащиеся не могут наверстать упущенное. Еще одна проблема — обучение представлению. Эффективное обучение с подкреплением требует хорошего представления состояний и действий. Глубокое обучение с подкреплением дает одно решение для репрезентативного обучения для обучения с подкреплением (Mnih et al., 2015), но оно все еще страдает от эффективности выборки.
Разработка надежных и гибких алгоритмов обучения с подкреплением может предоставить полезные модели для понимания сложных механизмов обучения с подкреплением в мозге. Кроме того, понимание того, как такие алгоритмы могут дать сбой в определенных условиях, может пролить свет на сложную патологию психических расстройств (Montague et al., 2012; Redish & Gordon, 2016).
Базальные ганглии ни в коем случае не являются единственным местом обучения с подкреплением в мозгу. Даже небольшой мозг червей или мух должен обладать способностью к обучению с подкреплением (Bendesky et al., 2011; Yamagata et al., 2014). Известно также, что в мозге позвоночных миндалевидное тело играет решающую роль в обучении на основе вознаграждения и наказания (Belova et al., 2007). Недавнее исследование развития показало, что нейроны латеральной миндалины имеют то же происхождение, что и нейроны коры, в то время как нейроны центральной миндалины происходят как нейроны базальных ганглиев (Soma et al., 2009). Миндалевидное тело — эволюционно более старая структура мозга, чем базальные ганглии; его можно рассматривать как прототип цепи кортико-базальных ганглиев (Cassell et al., 1999). Деятельность, зависящая от вознаграждения, также обнаруживается в различных областях коры, таких как орбитофронтальная кора (Schultz et al., 2000), префронтальная кора (Matsumoto et al., 2003; Watanabe, 1996) и теменная кора (Dorris). & Glimcher, 2004; Platt & Glimcher, 1999; Sugrue et al., 2004). Вычисление состояния, значения и действия может происходить не поэтапно в отдельных областях мозга, а может осуществляться динамикой петли корково-базальных ганглиев (Cisek, 2007).
Ссылки (в порядке цитирования):
- Торндайк, Э. Л. (1898 г.). Интеллект животных: экспериментальное исследование ассоциированных процессов у животных. Психологический обзор, Приложения к монографии, 2 (8), 1–109.
- Барто, А.Г., Саттон, Р.С., и Андерсен, К.В. (1983). Нейроноподобные адаптивные элементы, которые могут решать сложные задачи управления обучением. IEEE Transactions on Systems, Man, and Cybernetics, 13(5), 834–846.
- Саттон, Р.С., и Барто, А.Г. (2018). Обучение с подкреплением: введение (2-е изд.). Кембридж, Массачусетс: MIT Press.
- Барто, А. Г. (1995). Адаптивная критика и базальные ганглии. В JC Houk, JL Davis и DG Beiser (Eds.), Модели обработки информации в базальных ганглиях, (стр. 215–232). Кембридж, Массачусетс: MIT Press.
- Монтегю, П.Р., Даян, П., Персон, К., и Сейновски, Т.Дж. (1995). Пчелиный поиск пищи в неопределенной среде с использованием предиктивного обучения по Хеббиану. Природа, 377, 725–728.
- Шульц В., Даян П. и Монтегю П.Р. (1997). Нейронный субстрат предсказания и вознаграждения. Наука, 275, 1593–1599. https://doi.org/10.1126/science.275.5306.1593
- Доя, К. (2007). Обучение с подкреплением: вычислительная теория и биологические механизмы. Frontiers in Life Science, 1(1), 30–40. https://doi.org/10.2976%2F1.2732246
- Глимчер, П. В., и Фер, Э. (2013). Нейроэкономика: принятие решений и мозг (2-е изд.). Лондон: Elsevier Academic Press.
- Танака С.К., Доя К., Окада Г., Уэда К., Окамото Ю. и Ямаваки С. (2004). Предсказание немедленного и будущего вознаграждения по-разному задействует петли корково-базальных ганглиев. Nature Neuroscience, 7(8), 887–893.
- Мних В., Кавуккуоглу К., Сильвер Д. и др. (2015). Управление на уровне человека посредством глубокого обучения с подкреплением. Природа, 518 (7540), 529–533.
- Уоткинс, CJCH (1989). Учимся на отложенных вознаграждениях. Кандидат наук. Диссертация, Кембриджский университет.
- Уоткинс, CJCH, и Даян, П. (1992). Q-обучение. Машинное обучение, 8(3–4), 279–292.
- Сильвер, Д., Хуанг, А., Мэддисон, С.Дж., и соавт. (2016). Освоение игры в го с помощью глубоких нейронных сетей и поиска по дереву. Природа, 529 (7587), 484–489.
- Беллман, Р. (1952). К теории динамического программирования. Труды Национальной академии наук, 38, 716–719.
- Кулом, Р. (2006). Эффективная селективность и резервные операторы в поиске по дереву Монте-Карло. 5-я Международная конференция по компьютерам и играм. Турин, Италия.
- Сэмюэл, А.Л. (1959). Некоторые исследования машинного обучения с использованием игры в шашки. Журнал исследований и разработок IBM, 3, 210–229.
- Тезауро, Г. (1994). TD-Gammon, самообучающаяся программа для игры в нарды, позволяет играть на уровне мастеров. Нейронные вычисления, 6, 215–219.
- Боян, Дж. А., и Мур, А. В. (1995). Обобщение в обучении с подкреплением: безопасное приближение к функции ценности. В Т. К. Лин (ред.), Достижения в системах обработки нейронной информации 7 (стр. 369–376). Кембридж, Массачусетс: MIT Press.
- Цициклис, Дж. Н., и Рой, Б. В. (1997). Анализ обучения с разницей во времени с аппроксимацией функций. IEEE Transactions on Automatic Control, 42, 674–690.
- Сильвер Д., Шриттвизер Дж., Симонян К. и др. (2017). Освоение игры Го без участия человека. Природа, 550 (7676), 354–359.
- Мур, А.В., и Аткесон, К.Г. (1993). Приоритетная проверка: обучение с подкреплением с меньшим объемом данных и меньшим временем. Машинное обучение, 13(1), 103–130.
- Хассабис, Д., Кумаран, Д., Саммерфилд, К., и Ботвиник, М. (2017). Искусственный интеллект, вдохновленный нейробиологией. Neuron, 95(2), 245–258.
- Сильвер Д., Хьюберт Т., Шриттвизер Дж. и др. (2018). Общий алгоритм обучения с подкреплением, который осваивает шахматы, сёги и го посредством самостоятельной игры. Наука, 362 (6419), 1140–1144. https://doi.org/10.1126/science.aar6404
- Моримото, Дж., и Доя, К. (2001). Приобретение поведения в положении стоя настоящим роботом с помощью иерархического обучения с подкреплением. Робототехника и автономные системы, 36, 37–51.
- Питерс, Дж., и Шаал, С. (2008). Усиление двигательных навыков с помощью градиентов политики. Нейронные сети, 21(4), 682–697.
- Гу, С., Холли, Э., Лилликрап, Т., и Левин, С. (2017). Глубокое обучение с подкреплением для роботизированных манипуляций с асинхронными обновлениями вне политики. На Международной конференции IEEE по робототехнике и автоматизации (ICRA 2017).
- Шульц, В. (1998). Прогнозирующий сигнал вознаграждения дофаминовых нейронов. Журнал нейрофизиологии, 80, 1–27.
- Шульц В., Апичелла П. и Юнгберг Т. (1993). Ответы дофаминовых нейронов обезьян на поощрительные и условные стимулы во время последовательных этапов обучения задаче с отложенным ответом. Журнал неврологии, 13, 900–913.
- Барто, А. Г. (1995). Адаптивная критика и базальные ганглии. В JC Houk, JL Davis и DG Beiser (Eds.), Модели обработки информации в базальных ганглиях, (стр. 215–232). Кембридж, Массачусетс: MIT Press.
- Хоук, Дж. К., Адамс, Дж. Л., и Барто, А. Г. (1995a). Модель того, как базальные ганглии генерируют и используют нейронные сигналы, которые предсказывают подкрепление. В JC Houk, JL Davis и DG Beiser (Eds.), Модели обработки информации в базальных ганглиях, (стр. 249–270). Кембридж, Массачусетс: MIT Press.
- Монтегю, П.Р., Долан, Р.Дж., Фристон, К.Дж., и Даян, П. (2012). Вычислительная психиатрия. Тенденции в когнитивных науках, 16 (1), 72–80.
- Шульц В., Даян П. и Монтегю П.Р. (1997). Нейронный субстрат предсказания и вознаграждения. Наука, 275, 1593–1599.
- Ягишита, С., Хаяси-Такаги, А., Эллис-Дэвис, Г.К., Уракубо, Х., Исии, С., и Касаи, Х. (2014). Критическое временное окно действия дофамина на структурную пластичность дендритных шипиков. Наука, 345 (6204), 1616–1620.
- Иино Ю., Савада Т., Ямагучи К. и др. (2020). Рецепторы допамина D2 в обучении различению и увеличении позвоночника. Природа (онлайн).
- Хоук, Дж. К., Адамс, Дж. Л., и Барто, А. Г. (1995b). Модели обработки информации в базальных ганглиях. Кембридж, Массачусетс: MIT Press.
- Александр, GE, и Кратчер, доктор медицины (1990). Функциональная архитектура цепей базальных ганглиев: нейронные субстраты параллельной обработки. Тенденции в неврологии, 13, 266–271.
- Самедзима, К., Уэда, Ю., Доя, К., и Кимура, М. (2005). Отображение значений вознаграждения за действия в полосатом теле. Наука, 310 (5752), 1337–1340.
- Воорн, П., Вандершурен, Л.Дж., Груневеген, Х.Дж., Роббинс, Т.В., и Пеннарц, К.М. (2004). Вращение дорсально-вентральной перегородки полосатого тела. Тенденции в неврологии, 27(8), 468–474.
- Герфен, CR (1992). Неостриатальная мозаика: множественные уровни компартментальной организации базальных ганглиев. Ежегодный обзор неврологии, 15, 285–320.
- Грейбиэль, А.М., и Рэгсдейл, К.В., младший (1978). Гистохимически различные компартменты в полосатом теле человека, обезьян и кошек, продемонстрированные окрашиванием ацетилтиохолинэстеразой. Труды Национальной академии наук, 75 (11), 5723–5726.
- Намбу, А., Токуно, Х., и Такада, М. (2002). Функциональное значение кортико-субталамо-паллидарного «гиперпрямого пути». Неврологические исследования, 43(2), 111–117.
- Делонг, М. Р. (1990). Модели приматов двигательных расстройств базального происхождения. Тенденции в нейронауках, 13, 281–285.
- Франк, М.Дж., Сибергер, Л.К., и О'Рейли, Р., К. (2004). Кнутом или пряником: когнитивное обучение с подкреплением при паркинсонизме. Наука, 306 (5703), 1940–1943.
- Хикида Т., Кимура К., Вада Н., Фунабики К. и Наканиши С. (2010). Разные роли синаптической передачи в прямом и непрямом стриарных путях к поощрению и отвращению. Нейрон, 66(6), 896–907.
- Кравиц, А.В., Тай, Л.Д., и Крейцер, А.С. (2012). Различные роли нейронов полосатого тела прямого и непрямого пути в подкреплении. Nature Neuroscience, 15 (6), 816–818.
- Cui, G., Jun, S.B., Jin, X., et al. (2013). Одновременная активация стриарных прямых и непрямых путей во время инициации действия. Природа, 494 (7436), 238–242.
- Геддес, CE, Ли, Х., и Джин, X. (2018). Оптогенетическое редактирование раскрывает иерархическую организацию выученных последовательностей действий. Cell, 174(1), 32–43, e15.
- Баллейн, Б.В., Дельгадо, М.Р., и Хикосака, О. (2007). Роль дорсального полосатого тела в вознаграждении и принятии решений. Журнал неврологии, 27(31), 8161–8165.
- Доу, Н.Д., Нив, Ю., и Даян, П. (2005). Конкуренция, основанная на неопределенности, между префронтальной и дорсолатеральной полосатыми системами за контроль над поведением. Nature Neuroscience, 8 (12), 1704–1711.
- Доу, Н.Д., Гершман, С.Дж., Сеймур, Б., Даян, П., и Долан, Р.Дж. (2011). Влияние моделей на выбор людей и ошибки предсказания полосатых тел. Нейрон, 69 (6), 1204–1215.
- Глешер, Дж., Доу, Н., Даян, П., и О'Доэрти, Дж. П. (2010). Состояния против вознаграждений: диссоциирующие нейронные сигналы ошибок предсказания, лежащие в основе обучения с подкреплением на основе моделей и без моделей. Нейрон, 66(4), 585–595.
- Фермин, А.С., Ёсида, Т., Ёсимото, Дж., Ито, М., Танака, С.К., и Доя, К. (2016). Планирование действий на основе модели задействует сети коры-мозжечка и базальных ганглиев. Научные отчеты, 6, 31378.
- Даян, П. (2009). Целевой контроль и его антиподы. Нейронные сети, 22(3), 213–219.
- Канеман, Д. (2011). Думать быстро и медленно. Нью-Йорк, штат Нью-Йорк: Фаррар, Штраус и Жиру.
- Канеман, Д., и Тверски, А. (1979). Теория перспектив: анализ решения в условиях риска. Эконометрика, 47(2), 263–291.
- Бенжио, Ю. (2017). Предшествующее сознание. https://doi.org/10.48550/arXiv.1709.08568.
- Редиш, А.Д., и Гордон, Дж.А. (2016). Вычислительная психиатрия. Кембридж, Массачусетс: MIT Press. https://doi.org/10.7551/mitpress/9780262035422.001.0001
- Бендески А., Цунозаки М., Рокман М.В., Кругляк Л. и Баргманн С.И. (2011). Полиморфизмы рецепторов катехоламинов влияют на принятие решений у C. elegans. Природа, 472 (7343), 313–318. https://doi.org/10.1038/nature09821
- Ямагата Н., Ичиносе Т., Асо Ю. и др. (2014). Отдельные дофаминовые нейроны опосредуют сигналы вознаграждения для кратковременных и долговременных воспоминаний. Труды Национальной академии наук (онлайн). https://doi.org/10.1073/pnas.1421930112
- Белова, М.А., Патон, Дж.Дж., Моррисон, С.Е., и Зальцман, К.Д. (2007). Ожидание модулирует нейронные реакции на приятные и неприятные стимулы в миндалине приматов. Нейрон, 55(6), 970–984. https://doi.org/10.1016/j.neuron.2007.08.004
- Сома М., Айзава Х., Ито Ю. и др. (2009). Развитие миндалевидного тела мыши, выявленное по усиленному зеленому «переносу генов флуоресцентного белка с помощью внутриутробной электропорации. Журнал сравнительной неврологии, 513 (1), 113–128. https://doi.org/10.1002/cne.21945
- Кассел, доктор медицины, Фридман, Л.Дж., и Ши, К. (1999). Внутренняя организация центральной расширенной миндалины. Анналы Нью-Йоркской академии наук, 877, 217–240.
- Цисек, П. (2007). Корковые механизмы выбора действия: гипотеза конкуренции возможностей. Философские труды Королевского общества B: биологические науки, 362 (1485), 1585–1599. https://doi.org/10.1098/rstb.2007.2054
- Мацумото, К., Судзуки, В., и Танака, К. (2003). Нейронные корреляты моторного выбора, основанного на цели, в префронтальной коре. Наука, 301 (5630), 229–232.
- Ватанабэ, М. (1996). Ожидание вознаграждения в префронтальных нейронах приматов. Природа, 382, 629–632.
- Платт, М.Л., и Глимчер, П.В. (1999). Нейронные корреляты переменных принятия решений в теменной коре. Природа, 400, 233–238.
- Сугрю, Л.П., Коррадо, Г.С., и Ньюсом, В.Т. (2004). Сопоставление поведения и репрезентация значения в теменной коре. Наука, 304 (5678), 1782–1787. https://doi.org/10.1126/science.1094765
Большое спасибо за ваше внимание! Оставайтесь с нами для следующего усилия!
Алиреза Дехбозорги
https://www.linkedin.com/in/alireza-dehbozorgi-8055702a/
Твиттер: @BDehbozorgi83