«Опыт игры с искусственным интеллектом»

8 июля 2019 года в Mikamai, Data Science Milan организовал встречу на тему видеоигр. Был представлен новый инструмент «A.N.N.A.» которые превосходят традиционную систему искусственного интеллекта, где каждое действие планируется заранее.

«A.N.N.A. - Агент искусственной нейронной сети для MotoGP ™ 19 », Лука Антига и Даниэле Кортиновис, Orobix S.r.l.

После объяснения Лукой об Orobix, Даниэле обрадовал присутствующих на встрече, продемонстрировав проделанную работу над видеоигрой MotoGP ™ 19, начиная с теоретических концепций, чтобы понять A.N.N.A. Лучше иметь четкие концепции обучения с подкреплением и глубокого обучения с подкреплением.

Обучение с подкреплением простым способом состоит из обучения наилучшим действиям, основанным на вознаграждении, его можно описать как процесс марковского принятия решений.

В обучении с подкреплением есть три основных понятия: состояние, действие и вознаграждение. Состояние описывает текущую ситуацию. Действие - это то, что агент может делать в каждом состоянии. Награда описывает отзывы окружения, которые могут быть как положительными, так и отрицательными. Агент - это ученик и лицо, принимающее решения, он постоянно взаимодействует с окружающей средой. В этих взаимодействиях агент выбирает действия, и среда реагирует на эти действия, показывая новые ситуации и давая вознаграждение. Более конкретно, на каждом временном шаге t агент получает некоторое представление о состоянии среды, st и о том, что На основе выберите действие, при. На следующем временном шаге агент получает числовое вознаграждение rt + 1 и переходит в новое состояние st + 1. .

Как правило, агент реализует отображение состояний в распределение вероятностей по действиям, называемое политикой агента, π, и цель агента - найти оптимальную политику, которая обеспечивает максимальную ожидаемую отдачу от всех состояний. Политика - это функция поведения, которая позволяет агенту выбрать наилучшее действие. Функция ценности, Q-значение - это дисконтированные накопленные ожидаемые вознаграждения за выполнение действия в состоянии с последующим следованием политике.

Проблемы обучения с подкреплением можно решить с помощью следующих подходов: основанный на ценностях, основанный на политике и основанный на модели. Ценностно-ориентированный метод основан на оценке стоимости агента нахождения в заданном состоянии, оценивает функцию оптимальной стоимости. В методе, основанном на политике, выбирается параметризованная политика, параметры которой обновляются для максимизации ожидаемого дохода с использованием оптимизации на основе градиента или без градиента, цель состоит в том, чтобы оптимизировать функцию политики без использования функции значения. В то время как в методе, основанном на модели, целью является моделирование среды, создание модели поведения среды.

В обучении с подкреплением для агента существует компромисс между изучением все большего и большего количества знаний из окружающей среды (исследование) и максимизацией многообещающей стратегии с помощью текущих знаний (эксплуатация).

Глубокое обучение с подкреплением основано на обучении глубоких нейронных сетей приближению к оптимальной политике и / или функции оптимального значения, а вознаграждение зависит от состояния. Сверточные нейронные сети (CNN) могут использоваться в качестве компонентов агентов обучения с подкреплением, масштабируемых до задач большой размерности.

Эта система представляет собой сложную функцию, и вопрос заключается не в том, сколько слоев использовать, а в том, как разработать проблему: наблюдение и вознаграждение. Практическое применение приходит от видеоигры ATARI с ценностным подходом, называемым глубоким алгоритмом Q-сети (DQN). Окружающая среда, видеоигра, состоит из 4 компонентов: наблюдение (изображения на экране), агент (функция значения, созданная ИНС), действие (возможные кнопки джойстика) и награда (оценка из видеоигры).

АННА. - это метод глубокого обучения с подкреплением, который использовался при разработке MotoGP ™ 19 с целью сделать видеоигру как можно быстрее и изменить правила разработки. В других видеоиграх путь мотоцикла уже был запрограммирован, вместо этого цель этой системы - улучшить игровой процесс. Итак, как это работает?

Он основан на подходе критики действующих лиц, который использует методы, основанные как на ценностях, так и на политике. Агент при исследовании окружающей среды на каждом этапе запоминает оценку значения состояния, в котором он находится, выполняет действие и получает вознаграждение, предоставляемое окружающей средой. Nueral Network обеспечивает оценку значения состояния и действия с помощью распределения вероятностей.

В этой модели агент исследует среду и хочет увеличить вероятность выполнения действия, которое приводит к состояниям высокой ценности, он пытается увеличить вероятность выполнения действия с большим преимуществом, которое максимизирует отдачу.

В этой модели, где цель состоит в том, чтобы минимизировать потерю политики и потерю значения из-за стохастического градиентного спуска, есть субъект, который пытается выбрать лучшие действия, и критик, который дает обратную связь, чтобы повысить точность оценки значения. . Этот подход применяет к функции стоимости оценку преимущества, измеряемую разницей между оценкой состояния значения и значением, полученным после обучения, чем дисконтированные доходы.

Идея состоит в том, чтобы позволить агенту исправить, насколько лучше оказались действия, чем ожидалось, и в то же время позволяет модели обратить внимание на то, где предсказания сети отсутствуют.

После этого Даниэле показал части об обучении модели, а в конце Лука объяснил, как модель была использована в видеоигре. Посмотрите видео.

По сценарию Клаудио Дж. Джанкатерино

Ссылки:

-Https: //www.youtube.com/watch? V = IUVFXXfJ2Bs

-Http: //incompleteideas.net/book/ebook/the-book.html

-Https: //arxiv.org/abs/1708.05866

-Https: //arxiv.org/abs/1811.12560