Решение Unity OTC: решение для эмоционального обучения?

Если вы еще не слышали, Unity проводит испытание AI / Machine Learning под названием «Башня препятствий». Вызов башни лучше всего описать как вертикальный квест для ИИ. Перед разработчиками стоит задача создать ИИ, чтобы подняться на 100 этажей созданной башни. По мере прохождения ИИ уровней, уровни визуально меняются, и появляются новые препятствия, такие как поиск ключей или толкание ящиков. Мое предыдущее сообщение в блоге на внебиржевом рынке содержит дополнительные ссылки на предыдущие статьи и информацию о самой проблеме.

Решение Unity OTC: проблема глубокого обучения
Это еще одна запись из серии сообщений в блоге, которые я недавно написал о вызове Unity Obstacle Tower Challenge. Вы… medium.com

Это был сентябрь 1987 года, и я вместе с 20–30 другими людьми только что закончил смотреть премьеру «Звездного пути: Новое поколение» в пабе кампуса местного университета. Это была первая перезагрузка Star Trek, и вместо того, чтобы использовать вулканского научного сотрудника, как все ожидали, в качестве причудливого бесстрастного пришельца использовал Android под названием Data. Дейта, мастерски сыгранная Брентом Спайнером, стала одним из самых любимых персонажей актерского состава. К сожалению, это лишь увековечило миф о том, что ИИ не будет эмоциональным и останется без эмоций в течение многих лет.

Пройдите вперед 30 лет, и серия под названием WestWorld, кстати, еще одна перезагрузка, представляет продвинутый ИИ, но на этот раз с эмоциями. Оглядываясь назад, можно сказать, что в оригинальном «Западном мире» фигурировал бесстрастный ИИ-мошенник, человек в черном (которого сыграл Юл Бриннер). Теперь люди из HBO и создатели этой перезагрузки заслуживают нескольких кивков за то, что перевернули классику Майкла Крайтона с ног на голову. Специально для того, чтобы дать нам представление о том, на что на самом деле может быть похож продвинутый или общий ИИ. Фактически, исследователи обнаруживают, что ИИ могут нуждаться в этих эмоциях или чувствах, чтобы ускорить и улучшить обучение. Поэтому в этом блоге я хотел продемонстрировать и обсудить другие возможные эмоции / чувства, которые разработчикам может понадобиться смоделировать для решения сложных задач искусственного интеллекта, таких как OTC.

Награды и обучение с подкреплением

В настоящее время предпочтительным алгоритмом для разработки передовых приложений ИИ является обучение с подкреплением (RL). RL использует концепцию вознаграждений и отложенных вознаграждений, чтобы обучать алгоритмы выполнению задачи или цели. Самый простой пример использования RL - это угощение собакой за выполнение трюка. В этом примере собака учится, понимая, что ей необходимо достичь цели, чтобы получить награду. В RL мы делаем то же самое, за исключением того, что вместо удовольствия мы даем алгоритму балл. И наоборот, мы можем отнять долю балла за каждый неверный шаг, который алгоритм использует для принятия решения. Это делается для того, чтобы заставить алгоритм принять решение за установленный промежуток времени. Мы называем эти типы вознаграждений внешними вознаграждениями, поскольку они являются внешними по отношению к тому, что мы обычно называем алгоритмом мозга. Кроме того, существует целая область RL, называемая «Мотивированное обучение с подкреплением», которая непосредственно касается внутренних систем вознаграждения. Сейчас я обычно ссылаюсь на другую статью на Medium, в которой обсуждаются основные принципы MRL. К сожалению, я смог найти только следующую встречную статью о MRL и о том, как она расширяет возможности ИИ с помощью внутренних вознаграждений, тем не менее, она обеспечивает интересный поворот.

Расширение возможностей как внутренняя мотивация
При отсутствии целей или вознаграждений будьте наделены полномочиями кdatascience.com

Внутренние или то, что мы называем внутренними системами вознаграждения в RL, описывают навыки, способности или чувства, которые позволяют мозгу агента улучшать определенные модели поведения при обучении. Я использую термины «чувство» или «эмоция», чтобы связать их с нашим собственным человеческим опытом, но то, что происходит внутри / математически, будет далеко от этого. Unity фактически разработала внутреннюю систему вознаграждения для ML-агентов, которая имитирует то, что мы ассоциируем с любопытством. Команда Unity зашла так далеко, что создала специальную среду обучения для этого агента, показанную ниже:

Решение задач с редким вознаграждением с помощью Curiosity - блог Unity
Мы только что выпустили новую версию набора инструментов ML-Agents (v0.4), и одну из новых функций мы рады поделиться с… blogs.unity3d.com

Любопытство обучения

Специальная среда Curiosity Learning, построенная в Unity, называется Pyramids и предлагает агенту RL опрокинуть пирамиду из ящиков, содержащих золотой куб. Кроме того, для этого он должен сначала найти секретный переключатель и активировать его. Агент должен сделать все это, только получив финальную награду при опрокидывании сундука с золотом. По сути, упражнение превращается в многозадачный RL, который, если вы не знали, является особой ветвью RL. Обычно агент RL выполняет только одну задачу, основанную на вознаграждении. Заставить RL-агента выполнять несколько задач в настоящее время нереально, но ребята из Unity и другие, в том числе те, которые берутся за эту задачу, в настоящее время работают. MTRL может стать будущей записью в блоге, но для знамения давайте сосредоточимся на том, как агент с внутренним вознаграждением может выполнить, казалось бы, несколько задач, чтобы завершить вознаграждение.

CL работает, измеряя разницу в ожидаемых результатах состояния. Для этого он измеряет ожидаемые и фактические значения (внутренне), а затем измеряет разницу. Чем больше разница, тем больше удивление, а это, в свою очередь, вызывает большее любопытство у агента. Таким образом агент продолжает исследовать более удивительный путь. Добавляя это чувство любопытства к агенту, он может выполнять несколько задач, получая вознаграждение только за достижение конечной цели. Соперники внебиржевого рынка. Вы должны знать, что башня требует, чтобы агент выполнял несколько различных задач, но часто эти задачи связаны с одной целью; и это переход на следующий этаж. Это, вероятно, означает, что эта форма внутреннего чувства любопытства, безусловно, будет полезна для решения этой задачи. Однако затем я подумал, какие еще чувства / эмоции были бы полезны для OTC или обучения в целом.

Другие формы эмоционального обучения

Теперь, если вы не знали, я пишу книги о том, как изучать передовые технологии, такие как дополненная реальность, машинное обучение, глубокое обучение и, конечно же, обучение с подкреплением. В своей последней книге я собирался посвятить целую главу мотивированному обучению с подкреплением, но в конце концов мы выбрали другой путь. За исключением того, что при формулировании этой главы и после моего практического опыта с Curiosity Learning я убедился, что чувства не являются необязательными в обучении. Во всяком случае, теперь я уверен, что нам нужны чувства и эмоции, чтобы учиться. Почему? Что ж, я честно думаю, что у нас это было не так давно. Эмоции - это не путь к нашей звериной стороне, но они все же влекут нас к дальнейшему и большему обучению. Мы часто чувствуем, что наши основные эмоции, такие как любовь и ненависть, диктуют лишь более низменные действия, такие как секс и насилие. Но разве они не побуждают нас учиться? Какие еще чувства / эмоции мы можем считать важными для изучения и почему?

Решение Unity OTC: решение для эмоционального обучения?

Награды и обучение с подкреплением

Любопытство обучения

Другие формы эмоционального обучения

Похожие вопросы