Введение

Действия новорожденного или начинающего спортсмена изначально случайны или неуклюжи, но с повторным опытом человек становится способным достигать целей более эффективно и надежно. Исследования поведения животных описывали такие процессы приобретения поведения с помощью концепций вознаграждения и наказания. Вознаграждение способствует выполнению или подкрепляет действие, которое вызывает его выполнение (Thorndike, 1898). Наказание можно рассматривать как отрицательный сигнал вознаграждения, который уменьшает повторение действия, вызывающего его, или усиливает действие, избегающее его выполнения. Удивительно, как животное может приобретать разнообразные сложные формы поведения, связывая свои действия с последующими положительными и отрицательными наградами либо спонтанно в природе, либо в результате обучения людей. Это явление дало исследователям искусственного интеллекта хорошую мотивацию для поиска компьютерных алгоритмов, позволяющих машинам приобретать различные функции просто на основе сигналов обратной связи с вознаграждением (Barto et al., 1983).

Действия новорожденного или начинающего спортсмена изначально случайны или неуклюжи, но с повторным опытом человек становится способным достигать целей более эффективно и надежно. Исследования поведения животных описывали такие процессы приобретения поведения с помощью концепций вознаграждения и наказания. Вознаграждение способствует выполнению или подкрепляет действие, которое вызывает его выполнение (Thorndike, 1898). Наказание можно рассматривать как отрицательный сигнал вознаграждения, который уменьшает повторение действия, вызывающего его, или усиливает действие, избегающее его выполнения. Удивительно, как животное может приобретать разнообразные сложные формы поведения, связывая свои действия с последующими положительными и отрицательными наградами либо спонтанно в природе, либо в результате обучения людей. Это явление дало исследователям искусственного интеллекта хорошую мотивацию для поиска компьютерных алгоритмов, позволяющих машинам приобретать различные функции просто на основе сигналов обратной связи с вознаграждением (Barto et al., 1983).

Продукты таких исследований в совокупности называются обучением с подкреплением и применялись для решения различных задач управления и оптимизации (Sutton & Barto, 2018) (далее SB). С середины девяностых нейробиологам стало известно об интересных параллелях между ключевыми сигналами, используемыми в алгоритмах обучения с подкреплением, и тем, что они обнаружили в данных нейронной записи и визуализации мозга. Сотрудничество теоретиков и экспериментаторов способствовало лучшему пониманию функций, в первую очередь, нейромедиатора дофамина и нейронной цепи базальных ганглиев (Barto, 1995; Montague et al., 1995; Schultz et al., 1997). Этот успех теперь заинтересовал психиатров, социологов и экономистов, которые пытаются понять, как люди принимают правильные (или плохие) решения в реальном мире (Doya, 2007; Glimcher & Fehr, 2013).

Обучение с подкреплением — одна из трех основных основ машинного обучения. Одним из них является обучение с учителем, которое принимает явный целевой выходной сигнал и минимизирует ошибку между выходными данными обучаемого и целевым выходными данными. Другим является обучение без учителя, которое не получает целевого вывода, но фиксирует статистические характеристики входного сигнала, такие как кластеризация и уменьшение размерности. Обучение с подкреплением занимает промежуточное положение между обучением с учителем и обучением без учителя, требуя скалярного сигнала вознаграждения для серии выходных данных действия.

Марковский процесс принятия решений

Базовая теория обучения с подкреплением разработана для марковского процесса принятия решений (MDP), как показано на рисунке 1. агент отслеживает состояния среды и выполняет действие a. Среда возвращает скалярный сигнал вознаграждения r и переходит в новое состояние s 0 в соответствии с распределением вероятностей p( r, s′| s, a). Агентом может быть животное, человек, робот или программа. Для агентов-животных наградой может быть еда, вода или боль. У людей деньги или общественная слава также могут быть сильной наградой.

Цель агента — улучшить свою политику действий P(a|s), чтобы полученное вознаграждение было максимальным в долгосрочной перспективе. Точнее говоря, качество политики оценивается по ожидаемым совокупным будущим вознаграждениям.

где E[ ] представляет ожидание (среднее) в отношении стохастичности динамики окружающей среды p(r, s′|s, a) в сочетании с политикой агента p(a|s) . Параметр γ называется фактором дисконтирования во времени и указывает, насколько далеко в будущем заинтересован агент; только немедленное вознаграждение rₜ для γ = 0 и дальше в будущем, когда γ приближается к 1.

В рамках этой структуры цель обучения с подкреплением может быть сформулирована как поиск оптимальной политики, которая максимизирует ожидаемые будущие вознаграждения (1), начиная с любого состояния. Что делает обучение с подкреплением интересным (и трудным), так это то, что действие aₜ влияет не только на немедленное вознаграждение rₜ, но также влияет на следующее состояние sₜ₊₁, что может повлиять на будущие награды rₜ₊1, rₜ+2 и т. д. С другой стороны, данное вознаграждение rₜ может быть связано не с тем, что оно непосредственно предшествует действию aₜ , а также с прошлыми действиями aₜ-1 , aₜ-2 и так далее. Проблема определения того, какие прошлые действия и состояния несут ответственность за данное вознаграждение, известна как проблема распределения временных кредитов, которая является основной проблемой обучения с подкреплением.

Еще одна важная проблема в обучении с подкреплением — исследование. Агент должен попробовать разные действия в разных состояниях, чтобы выяснить, что хорошо, а что плохо. По мере обучения агент должен предпринимать действия, которые с большей вероятностью принесут больше вознаграждения. Как найти баланс между попыткой чего-то нового и сосредоточением внимания на заведомо хорошем выборе называется компромисс между исследованием и эксплуатацией.

На рисунке 3 показан простой пример, который использовался в функциональном МРТ-исследовании, посвященном мозговому механизму временного дисконтирования (Tanaka et al., 2004). Это MDP с тремя состояниями и двумя действиями. Обычно действие a = 1 сдвигает состояние влево с вознаграждением r = 1, а действие a = 2 сдвигает состояние вправо с отрицательным вознаграждением из r = -1. Однако из крайнего левого состояния s = 1 действие a = 1 переводит состояние в крайнее правое s = 3 с большим отрицательным вознаграждением. r = -5, а из крайнего правого состояния s = 3 действие a = 2 переводит состояние в крайнее левое s = 1 с большим положительным вознаграждением r = 5. Предположим, вы находитесь в среднем состоянии s = 2, какое действие вы предпримете? Если вы просто следуете немедленному вознаграждению большего размера, вы должны взять a = 1, чтобы получить положительное вознаграждение, которое переместит вас к s = 1, а затем взять a = 2, чтобы избежать большого отрицательного вознаграждения, которое возвращает вас к s = 2. Таким образом, вы будете циклически переключаться между s = 1 и s = 2 без чистого выигрыша. Умный читатель взял бы a = 2 при s = 1 и s = 2, несмотря на немедленные потери, чтобы достичь s = 3, а затем возьмите a = 2, чтобы получить большую награду. В реальной жизни есть похожие случаи, которые требуют дорогостоящей работы для достижения важной цели, такой как публикация статьи или получение докторской степени. Может ли простой вычислительный агент решить эту задачу?

Функция ценности действия

Стандартным инструментом обучения с подкреплением для оценки качества действия в долгосрочной перспективе является функция ценности действия, которая определяется как

Функция ценности действия Q(s, a) оценивает, какое вознаграждение в будущем получит агент, выполнив действие a в состоянии s, и затем следуя настоящей политике. В психологии это может быть связано с мотивацией или побуждением к выполнению определенного действия в определенной ситуации.

Для MDP с дискретными состояниями и действиями функция значения действия может храниться в таблице состояния × действия, а ее записи могут обновляться с помощью алгоритма обучения. . Для непрерывного или очень большого количества состояний или действий для представления функции значения действия используется аппроксиматор функции, такой как искусственная нейронная сеть (ИНС) (Mnih et al., 2015). .

Если функция значения действия изучена для всех пар состояние-действие, оптимальная политика состоит в том, чтобы выбрать действие, которое максимизирует функцию значения действия в текущем состоянии:

которая называется жадная политика. Однако во время обучения необходимо выбрать политику, способствующую исследованию. Простой способ называется ε-жадная политика, при котором случайное действие выбирается с вероятностью ε, а в противном случае применяется жадная политика.

Другим распространенным способом выбора действия с использованием функции значения действия является выбор Больцмана или softmax:

где функция ценности действия рассматривается как отрицательная энергия, так что действие большей ценности действия предпринимается с большей вероятностью. Параметр β называется обратная температура и управляет случайностью выбора. При β = 0 выбор полностью случаен, а при увеличении β действия с более высокими значениями выбираются чаще, так что выбор становится более жадным.

Sarsa и Q Learning

Как агент может изучить функцию ценности действия? В общем, после прохождения последовательностей состояния, действия и вознаграждения в качестве оценки можно использовать среднее значение вознаграждения со скидкой после каждой пары состояние-действие. Это называется методом Монте-Карло и известно, что он не очень эффективен, особенно когда динамика среды является стохастической (SB, глава 5). Более эффективным способом является использование рекурсивной связи между последующими состояниями и действиями:

который вытекает из экспоненциального дисконтирования будущих вознаграждений.

Отклонение от этой рекурсивной зависимости можно обнаружить по временной разнице (TD)» ошибке:

Затем функция значения действия может быть обновлена ​​​​как

где α — параметр скорости обучения. Это известно как алгоритм Сарсы, так как он основан на последовательности, где α — параметр скорости обучения. Это известно как алгоритм Сарсы, так как он основан на последовательности sₜ , aₜ , rₜ , sₜ+1 , aₜ+1 .

Другой алгоритм обучения, использующий функцию значения действия, называется Q-обучение (Watkins, 1989; Watkins & Dayan, 1992), в котором используется несколько другая ошибка TD.

Это означает, что из последующего состояния предполагается жадная политика, даже если агент фактически использует нежадную исследовательскую политику. Это называется обучение вне политики, а Sarsa называется обучение в соответствии с политикой. Преимущество обучения вне политики состоит в том, что оптимальную функцию ценности с детерминированной политикой можно изучить, следуя стохастической исследовательской политике. Недостатки обучения вне политики заключаются в том, что производительность во время обучения может быть скомпрометирована из-за пренебрежения эффектом исследования, и что обучение может быть нестабильным в сочетании с аппроксиматором функций (см. SB, главы 6 и 11).

Актер-критик и функция ценности состояния

Другой класс алгоритмов обучения с подкреплением называется архитектурой актор-критик (Barto et al., 1983). Актор реализует некоторую форму политики p(a|s, θ) с вектором параметров θ. Критик оценивает, насколько хорошо работает политика актера. Более конкретно, критик предсказывает ожидаемую будущую награду от каждого состояния, следуя текущей политике как функция ценности состояния:

Для дискретных состояний функция значения состояния может храниться в векторе, а аппроксиматор функции используется для непрерывного или большого количества состояний (Silver et al., 2016). В психологии функция ценности состояния может быть связана с перспективой или настроением, которое создает данная ситуация.

Динамическое программирование

теория динамического программирования предлагает способы использования функций вознаграждения и перехода состояний для получения функции оптимального значения, которой должна удовлетворять оптимальная политика (Bellman, 1952)( СБ, глава 4). Рекурсивная связь функции значения состояния в приведенном ниже уравнении может быть выражена функциями вознаграждения и перехода как

Это называется уравнение Беллмана для политики p(a|s). Для оптимальной политики функция ценности состояния удовлетворяет

Это называется уравнением оптимальности Беллмана, а его решение V*(s) называется функцией значения оптимального состояния. Несмотря на то, что оптимальных политик может быть несколько, функция оптимального значения уникальна. После получения оптимальной функции значения состояния оптимальная политика задается действием, которое максимизирует правую часть уравнения выше для каждого состояния.

Уравнение оптимальности Беллмана представляет собой одновременное нелинейное уравнение для количества состояний, и его решение может быть довольно сложным, поскольку количество состояний становится большим.

Планирование действий

Когда динамика перехода между состояниями детерминирована или почти детерминирована, реалистичной стратегией является поиск последовательности действий, дающей большое кумулятивное вознаграждение. Для задачи, которая выполняется за небольшое количество шагов, возможен поиск до конца последовательности. В задаче с большим количеством шагов поиск последовательности действий может быть усечен с помощью оценки функции значения состояния. Например, ожидаемое вознаграждение за двухшаговый переход можно оценить как:

В сложных задачах, таких как игра в го, вычисление оптимальной функции значения состояния для всех возможных состояний является сложной задачей, а поиск всех возможных последовательностей действий до конца игры требует огромного количества времени. Однако хорошая комбинация функции приближенного значения и поиска действия с использованием модели перехода состояний, такой как поиск по дереву Монте-Карло (MCTS) (Coulom, 2006) (см. SB, глава 8) , могут дать практические решения (Silver et al., 2016, 2018) (см. SB, глава 16).

Предсказание будущих состояний при планировании действий на основе моделей можно рассматривать как процесс воображения или мысленного моделирования.

Частично наблюдаемые марковские процессы принятия решений

Модель перехода состояний может быть полезна не только для планирования будущих действий, но и для оценки текущего состояния по предыдущим действиям, когда сенсорное наблюдение подвержено шуму, задержке или окклюзии. В частично наблюдаемом марковском процессе принятия решений (POMDP; см. SB, глава 17) агент получает стохастическое наблюдение за состоянием окружающей среды как p(o|s). Простое решение POMDP состоит в том, чтобы изучить политику, основанную на наблюдении p(a|o), но это часто неоптимально. Когда агент имеет доступ к моделям сенсорного наблюдения и перехода состояния, можно использовать динамическую байесовскую структуру для обновления вероятностной оценки состояния. Из предыдущей оценки вероятности состояния p(sₜ-1) и предыдущего действия aₜ-1 априорная вероятность текущего состояния определяется моделью перехода состояния как

Это можно объединить с вероятностью из текущего наблюдения P(oₜ|sₜ)как

Вероятность апостериорного состояния p(sₜ|oₜ, aₜ-1) называется состоянием доверия и может многократно использоваться в качестве априорной вероятности p(sₜ) для вычисления следующего состояния доверия.

Стандартный способ выбора действия в условиях сенсорной неопределенности состоит в усреднении значений действия по возможным состояниям.

и предпримите действия, которые максимизируют его.

Идентификация лежащего в основе состояния из зашумленных наблюдений является центральной проблемой сенсорного восприятия или перцептивного принятия решений, и действия человека часто отражают неуверенность или уверенность в воспринимаемом состоянии.

Обучение с подкреплением для искусственного интеллекта

В создании интеллектуальных машин может быть несколько подходов. Один из них заключается в анализе конкретных особенностей данной проблемы и разработке алгоритма решения для конкретной предметной области. Другой — имитировать навыки людей-экспертов. Третий подход заключается в том, чтобы позволить машинам найти хорошее решение на опыте. Создание машины, которая учится как человек, было давней мечтой исследователей искусственного интеллекта (ИИ). Классический пример — Игрок в шашки Сэмюэля, который включал в себя идею распространения счета доски на последующие состояния (Самуэль, 1959) (см. SB, глава 16). Современная форма обучения TD была представлена ​​в (Barto et al., 1983), которая продемонстрировала свою эффективность путем моделирования задачи балансировки тележки и шеста. Уоткинс прояснил связь между TD-обучением и динамическим программированием и вывел алгоритм Q-обучения (Watkins, 1989; Watkins & Dayan, 1992). Первой практической демонстрацией силы TD-обучения стал TD-Gammon, который достиг уровня чемпиона мира (Tesauro, 1994).

Глубокое обучение с подкреплением

Самый последний прогресс в обучении с подкреплением и ИИ в целом достигается за счет сочетания TD-обучения с глубокими нейронными сетями. Было показано, что сочетание обучения TD с аппроксимацией функции может вызвать нестабильность, поскольку обновление текущего значения V(sₜ) может повлиять на его целевое значение V(sₜ+1) как побочный эффект обобщения аппроксиматором функций (Boyan & Moore, 1995; Tsitsiklis & Roy, 1997). Исследователи из DeepMind нашли подход к преодолению этой проблемы с помощью двух методов (Mnih et al., 2015).

Один из них состоит в том, чтобы сохранить копию сети аппроксиматора функции значения, называемой целевой сетью для вычисления V(sₜ+1), как в уравнении ошибки TD, и обновлять ее только периодически после того, как сеть для вычисления V(sₜ) был обновлен после многих переходов состояний. Это позволяет избежать завышения целевого значения из-за обобщения на смежные во времени состояния.

Другой способ — сохранить в памяти последовательность состояние-действие-вознаграждение и обновить функцию ценности путем случайной выборки опыта состояние-действие-вознаграждение-состояние из памяти, что называется воспроизведение опыта. Это позволяет избежать трудностей обучения на временно коррелированных образцах. Преимущество воспроизведения опыта, которое также было продемонстрировано в ранних работах (Moore & Atkeson, 1993), было вдохновлено механизмом эпизодической памяти гиппокампа (Hassabis et al., 2017).

Эффективность комбинации была продемонстрирована глубокой Q-сетью, которая принимает изображения экрана компьютерной игры в качестве входных данных состояния и значения действий для операций джойстика и кнопок в качестве выходных данных.

Сила сочетания обучения TD с глубокой нейронной сетью была дополнительно продемонстрирована в игре Го. В оригинальной версии AlphaGo обучение изначально проводилось по игровым записям человека-эксперта (Silver et al., 2016). В более поздних версиях AlphaGo Zero (Silver et al., 2017) обучение основывалось исключительно на собственных смоделированных играх программы. Более того, в Alpha Zero (Silver et al., 2018) тот же алгоритм добился сверхчеловеческих результатов в Го, Шахматах и Сёги.

Робототехника

Исследователи робототехники также мечтали создать робота, способного обучаться различным двигательным навыкам методом проб и ошибок. Первые усилия включали создание робота, который учится ходить или вставать (Morimoto & Doya, 2001). Основными проблемами при применении обучения с подкреплением к роботам являются необходимость непрерывных многомерных действий для точных движений, а также время, стоимость и опасность, связанные с пробами и ошибками в физической среде.

Алгоритмы «актор-критик» и другие алгоритмы, использующие параметризованную политику, обычно используются для непрерывного контроля (Peters & Schaal, 2008). Использование физического симулятора для раннего исследовательского обучения с последующим переходом к дополнительному обучению в реальных условиях (симуляция в реальность) также является обычной практикой. В последнее время сочетание глубокого обучения с обучением с подкреплением делает успехи в задачах управления на основе зрения, таких как манипулирование различными объектами (Gu et al., 2017).

Обучение с подкреплением в мозгу

Концепция обучения с подкреплением исходит из того, как животные учатся поведению. Развитие алгоритмов обучения с подкреплением предоставило некоторые правдоподобные механизмы их реализации в мозгу. Действительно, за последние пару десятилетий в механизме обучения с подкреплением мозга были достигнуты многочисленные успехи.

Дофаминовое кодирование ошибки временной разницы

Прорывным открытием в отношении механизма обучения с подкреплением в мозге стало то, что дофаминовые нейроны среднего мозга реагируют на ошибку предсказания вознаграждения (Schultz, 1998; Schultz et al., 1993). Шульц и его коллеги зафиксировали активность дофаминовых нейронов, когда обезьяны выполняли такие действия, как тянущиеся за едой или нажимающие на рычаг для получения сока (рис. 4). До обучения или когда не было прогностического сигнала, дофаминовые нейроны реагировали на вознаграждение. Когда животное научилось ассоциировать сенсорный сигнал с доставкой награды, дофаминовые нейроны начали реагировать на сенсорные сигналы, прогнозирующие вознаграждение, и реакция на предсказанное вознаграждение уменьшилась. Когда после обучения отсутствовало вознаграждение, возбуждение дофаминовых нейронов подавлялось в то время, когда ожидалось вручение вознаграждения. Это интересные результаты сами по себе, но они наиболее интересны для тех, кто знаком с теорией обучения с подкреплением, потому что она точно соответствует тому, что делает ошибка TD.

Перед обучением, предполагая, что функция значений V(s) = 0 для всех состояний, сигнал TD δₜ равен вознаграждению rₜ . Когда новое состояние sₜ+1 позволяет агенту предсказать предстоящее вознаграждение, V(sₜ+1) становится положительным и, следовательно, ошибка TD δₜ отвечает положительным импульсом, даже если вознаграждение rₜ = 0. При представлении прогнозируемого вознаграждения значение V(sₜ+1) снижается до базового уровня, так что временная разница γV(sₜ+1) - V(sₜ) становится отрицательным и отменяет положительное вознаграждение rₜ.

Эта параллель между активностью дофаминовых нейронов и сигналом TD вдохновила на теоретические предположения, что дофаминовые нейроны и их основная проекционная мишень, стриатум, могут осуществлять обучение с подкреплением TD-типа (Barto, 1995; Houk et al., 1995a; Montague et al. , 1996; Schultz et al., 1997), как показано на рисунке 5 (ниже).

Совсем недавно Yagishita и его коллеги исследовали дофамин-зависимую синаптическую пластичность с использованием оптической активации пресинаптического глутамата, постсинаптической активации внутриклеточным электродом и оптогенетической стимуляции дофаминовых окончаний (Yagishita et al., 2014). В нейронах полосатого тела, экспрессирующих рецепторы типа D1, пре-пост-стимуляция с последующим введением дофамина в течение примерно 1 секунды вызывала синаптическую потенциацию. В стриарном нейроне, экспрессирующем рецепторы типа D2, которые обладают более высокой аффинностью (чувствительностью), чем рецепторы типа D1, подавление высвобождения дофамина вызывает синаптическую потенциацию (Iino et al., 2020).

Кодирование ценностей и действий в базальных ганглиях

TD-кодирование ошибок дофаминовых нейронов и дофамин-зависимая синаптическая пластичность в стриатуме убедительно свидетельствуют о том, что базальные ганглии играют главную роль в обучении с подкреплением в мозге (Houk et al., 1995b). Базальные ганглии образуют параллельные контуры с входом от коры головного мозга и выходом через таламус обратно в кору (Alexander & Crutcher, 1990). Учитывая зависимую от дофамина синаптическую пластичность, можно предположить, что полосатые нейроны участвуют в функциях состояния обучения или ценности действия (рис. 3). Самедзима и др. показали в задаче свободного выбора, что многие нейроны полосатого тела представляют собой предсказание вознаграждения за конкретное действие (Samejima et al., 2005).

У грызунов петли кортико-базальных ганглиев грубо подразделяются на моторную петлю, проходящую через дорсолатеральный полосатый телес, префронтальную петлю, проходящую через дорсомедиальный стриатум, и лимбическую петлю, проходящую через вентральный стриатум (Voorn et al., 2004). Нейронная запись полосатого тела крыс также показала нейроны, кодирующие значение действия, в дорсальном полосатом теле и нейроны, кодирующие значение состояния, в вентральном полосатом теле (Ito & Doya, 2015).

Стриатум состоит из двух компартментов: стриосома, выступающая к дофаминовым нейронам среднего мозга, и матрикс (или участок), выступающий к бледному шару (Gerfen, 1992; Graybiel & Ragsdale, 1978). Бледный шар состоит из внутреннего сегмента (GPi), который проецируется на таламус, и внешнего сегмента (GPe), который проецируется на GPi как напрямую, так и через субталамическое ядро ​​(STN), которые получают входные данные от коры. Корковый вход через базальные ганглии имеет три пути: прямой путь через полосатое тело к GPi; непрямой путь через стриатум, GPe и субталамическое ядро ​​(STN) к GPi; и гиперпрямой путь через STN к GPi (Nambu et al., 2002). В чем причина таких множественных путей?

Недавно генетически кодируемые индикаторы кальция (GECI) и оптогенетическая манипуляция позволили специфичную для клеточного типа запись и манипулирование нейронами полосатого тела. В стриатуме грызунов нейроны, экспрессирующие D1-рецептор, проецируются на прямой путь, вызывая двойное торможение, тогда как нейроны, экспрессирующие D2-рецептор, проецируются на непрямой путь, включающий тройное торможение. Было высказано предположение, что они участвуют в инициировании и подавлении действия (Alexander & Crutcher, 1990; Delong, 1990) или обучении на вознаграждении и наказании (Frank et al., 2004; Hikida et al., 2010).

Оптогенетическая стимуляция экспрессирующих D1-рецептор нейронов прямого пути в дорсомедиальном стриатуме вызывала усиливающий эффект, в то время как стимуляция экспрессирующих D2-рецептор нейронов непрямого пути вызывала отталкивающий эффект (Kravitz et al., 2012). Интересно, что измерение популяционной активности нейронов полосатого тела D1 и D2 с помощью фотометрии волокон показало, что обе популяции активируются в начале действий (Cui et al., 2013). Это может быть связано с тем, что начало нового действия часто является концом предыдущего действия. В задаче последовательного нажатия рычага повторяющихся компонентов (например, LLRR) оптогенетическая активация нейронов D1 индуцируется чрезмерным повторением (например, LLLRR), в то время как активация нейронов D2 вызывает преждевременный переход (например, LRR), предполагая, что они участвуют в залипании и переключения соответственно (Geddes et al., 2018).

Действия и обучение без модели/на основе модели

Поведение людей и животных можно классифицировать как целенаправленное, зависящее от текущих потребностей, или привычное, рутинно реагирующее на заданные стимулы. Это поведение диссоциировано парадигмой обесценивания, в которой ценность определенной пищи изменяется в результате насыщения или отравления. Balleine и коллеги продемонстрировали, что префронтально-дорсомедиальная петля полосатого тела и моторно-дорсолатеральная петля полосатого тела соответственно участвуют в целенаправленном и привычном поведении (Balleine et al., 2007). Доу и его коллеги далее постулировали, что целенаправленное и привычное поведение основано на прогнозирующем поиске на основе модели и реактивном выборе без модели (Daw et al., 2005). В то время как стратегии, основанные на моделях, часто связывают с префронтальной и теменной корой (Glascher et al., 2010), исследования функциональной МРТ также предполагают участие базальных ганглиев (Daw et al., 2011) (рис. 6 ниже). Другое исследование с использованием многоступенчатого планирования действий показало активацию не только областей коры, но также мозжечка и базальных ганглиев (Fermin et al., 2016), что согласуется с мнением о том, что мозжечок предсказывает результирующие состояния кандидатов на действия, используя внутренние модели. полученные в результате контролируемого обучения, и что базальные ганглии оценивают их качество по функции ценности, полученной в результате обучения с подкреплением (Doya, 1999, 2000).

Дихотомия между системами без моделей и системами, основанными на моделях, имеет некоторое сходство с другими дихотомиями в психологии и когнитивной науке (Даян, 2009), такими как процедурная и декларативная, Система 1 и Система 2 (Кахнеман, 2011; Канеман и Тверски, 1979). , бессознательное и сознательное (Bengio, 2017).

Заключение

Обучение с подкреплением — это теоретическая основа, которая способствовала плодотворному взаимодействию между нейробиологией, психиатрией, психологией, социологией и экономикой. Это связано с тем, что постановка задачи обучения с подкреплением отражает основные черты поведения животных и человека.

В настоящее время существует несколько основных проблем и ограничений в алгоритмах обучения с подкреплением. Одним из них является эффективность выборки, означающая, что для обучения требуется много данных. В задачах, где доступны симуляторы, компьютерный агент может иметь неограниченное взаимодействие со стационарной средой. Успех AlphaGo основан на огромном количестве игр, в которые ни один человек не может попасть за всю жизнь (Silver et al., 2017). В реальных физических средах, таких как управление роботом или взаимодействие с человеком, получение реального опыта может занять много времени или дорого, а среда может постоянно меняться, так что медленно учащиеся не могут наверстать упущенное. Еще одна проблема — обучение представлению. Эффективное обучение с подкреплением требует хорошего представления состояний и действий. Глубокое обучение с подкреплением дает одно решение для репрезентативного обучения для обучения с подкреплением (Mnih et al., 2015), но оно все еще страдает от эффективности выборки.

Разработка надежных и гибких алгоритмов обучения с подкреплением может предоставить полезные модели для понимания сложных механизмов обучения с подкреплением в мозге. Кроме того, понимание того, как такие алгоритмы могут дать сбой в определенных условиях, может пролить свет на сложную патологию психических расстройств (Montague et al., 2012; Redish & Gordon, 2016).

Базальные ганглии ни в коем случае не являются единственным местом обучения с подкреплением в мозгу. Даже небольшой мозг червей или мух должен обладать способностью к обучению с подкреплением (Bendesky et al., 2011; Yamagata et al., 2014). Известно также, что в мозге позвоночных миндалевидное тело играет решающую роль в обучении на основе вознаграждения и наказания (Belova et al., 2007). Недавнее исследование развития показало, что нейроны латеральной миндалины имеют то же происхождение, что и нейроны коры, в то время как нейроны центральной миндалины происходят как нейроны базальных ганглиев (Soma et al., 2009). Миндалевидное тело — эволюционно более старая структура мозга, чем базальные ганглии; его можно рассматривать как прототип цепи кортико-базальных ганглиев (Cassell et al., 1999). Деятельность, зависящая от вознаграждения, также обнаруживается в различных областях коры, таких как орбитофронтальная кора (Schultz et al., 2000), префронтальная кора (Matsumoto et al., 2003; Watanabe, 1996) и теменная кора (Dorris). & Glimcher, 2004; Platt & Glimcher, 1999; Sugrue et al., 2004). Вычисление состояния, значения и действия может происходить не поэтапно в отдельных областях мозга, а может осуществляться динамикой петли корково-базальных ганглиев (Cisek, 2007).

Ссылки (в порядке цитирования):

Большое спасибо за ваше внимание! Оставайтесь с нами для следующего усилия!

Алиреза Дехбозорги

[email protected]

[email protected]

https://www.linkedin.com/in/alireza-dehbozorgi-8055702a/

Твиттер: @BDehbozorgi83