Модели нейронного языка - путь к общему искусственному интеллекту или тупик?

Автор: профессор, доктор Йенс Леманн.

[Отказ от ответственности: приведенный ниже текст представляет личное мнение, основанное на имеющихся у нас научных данных.]

В связи с быстрым прогрессом, достигнутым в исследованиях искусственного интеллекта за последние годы, давний вопрос о том, могут ли машины достичь определенной формы общего интеллекта, снова приобрел большой интерес. Одной конкретной технологией, которая сыграла важную роль в этих обсуждениях, являются (нейронные) языковые модели. По сути, языковая модель пытается смоделировать распределение всех возможных высказываний на определенном языке. Их часто обучают простым задачам, таким как предсказание следующего слова в предложении или поиск пропущенного слова в предложении - но это делается в экстремальных масштабах с использованием очень больших нейронных сетей. У языковых моделей есть широкий спектр приложений для распознавания речи, диалоговых систем, машинного перевода и поиска информации. С появлением в последнее время очень крупномасштабных языковых моделей на основе Transformer, таких как GPT-3, Switch Transformers или Wu Dao 2.0, которые достигли впечатляющих результатов в разнообразных приложениях, ключевой вопрос заключается в том, действительно ли они нейронные языковые модели (NLM) являются потенциальными строительными блоками для общего искусственного интеллекта.

Мгновенное обучение и общий интеллект

Одним особенно интересным аспектом в этом обсуждении является способность GPT-3 и других языковых моделей к обучению по нескольким кадрам: им нужно всего несколько примеров, чтобы выполнить новую задачу, связанную с языком. Возможность быстрого обучения на нескольких примерах вместо того, чтобы требовать нескольких тысяч обучающих примеров, является важной целью ИИ. Более того, этот тип интеллекта является более «общим» в том смысле, что одна модель может использоваться потенциально в тысячах или даже миллионах вариантов использования и областей без необходимости конкретных модификаций архитектуры, переобучения или тонкой настройки. Это похоже на людей, которым часто требуется всего несколько примеров, чтобы изучить новую задачу.

Это здорово, но делает ли это автоматически крупномасштабные языковые модели ключевой технологией для общего искусственного интеллекта (AGI)? Мнения по этому поводу сильно разнятся. Вот две (казалось бы) противоположные точки зрения на этот счет:

«… проблема не в синтаксисе GPT-3 (который отлично владеет языком), а в его семантике: он может воспроизводить слова на идеальном английском языке, но он имеет лишь самое смутное понимание того, что означают эти слова, и никакого смысла о том, как эти слова относятся к миру ».

- Гэри Маркус и Эрнест Дэвис (источник)

«Wu Dao 2.0 направлен на то, чтобы позволить машинам думать, как люди, и достичь когнитивных способностей, выходящих за рамки теста Тьюринга».

- Тан Цзе, ведущий исследователь Wu Dao 2.0 (источник)

Я считаю, что для анализа того, являются ли NLM важным строительным блоком для общего интеллекта (по крайней мере) два аспекта имеют решающее значение:

1. Являются ли крупномасштабные языковые модели только запоминанием данных обучения или они обладают реальными способностями к обучению / обобщению?

2. Можем ли мы преодолеть дилемму маркировки данных, то есть тот факт, что мы полагаемся на огромное количество текста для обучения без учителя, но при этом хотим сохранить некоторый контроль над тем, что делает полученная модель? (например, предотвращение нежелательной предвзятости, получение знаний)

Я рассмотрю оба момента ниже. После этого я обращусь к практическому вопросу о том, что многие исследователи не могут даже исследовать эти вопросы из-за огромного размера и ограниченной доступности NLM.

Запоминание или обобщение

Учитывая, что крупномасштабные модели нейронного языка имеют чрезвычайно большое количество параметров, естественный вопрос заключается в том, запоминают ли они только входные данные или действительно могут объединить несколько доказательств. Проще говоря, возникает вопрос: действительно ли нейроязыковые модели интеллектуальны?

Чтобы ответить на этот вопрос, мы должны сначала посмотреть, где они работают хорошо, а где нет. На примере GPT-3 становится очевидным, что модель автоматически не справляется со всеми типами задач из коробки. В тестах, приведенных в исходной статье, GPT-3 работает намного ниже современного уровня в нескольких задачах, таких как рассуждение на основе здравого смысла, создание резюме, перевод и понимание машинного чтения, в то время как он очень хорошо справляется с другими задачами, связанными с текстом. поколение. Однако это само по себе не позволяет ответить на вопрос, поскольку в GPT-3 не было данных обучения для конкретной задачи. Это означает, что он не может использовать шаблоны, специфичные для набора данных, так же, как подходы для конкретных задач. Можно утверждать, что его эффективность при выполнении этих задач недооценивается, поскольку он не может использовать ложные шаблоны в данных, которые не являются признаком интеллекта. Например, производительность более эффективных моделей машинного понимания прочитанного может нарушиться при простом изменении текста.

Это означает, что нам нужно глубже погрузиться в конкретные сценарии:

Один интересный подражатель был проведен профессором Митчеллом и включает в себя поиск аналогий, например используя следующую подсказку:

В: Если a b c изменится на a b d, на что изменится p q r?

A: p q s

В: Если a b c изменится на a b d, на что изменится i j k?

GPT-3 ответил здесь i j l, поэтому он правильно заменил последний символ на следующую букву в алфавите. Это неплохо, да еще и с некоторыми другими, более сложными задачами. (Примечание: Модель не видела эти примеры раньше.) Однако она не очень хорошо справлялась с обучением с нулевым выстрелом - в приведенном выше примере она не могла решить задачу после получения только первого вопроса. В тестах GPT-3 также имел некоторые нетипичные для человека ошибки. То, как оценивать производительность NLM, во многом зависит от ожиданий. Имея относительно низкое ожидание какого-либо истинного понимания NLM, я положительно оценил результаты. Кажется, что у языковых моделей действительно есть возможности обобщения, но есть и явные ограничения. Например, GPT-3 не учится переворачивать предложения или присваивает одинаковые шансы, что овца будет черной или белой. Однако следует также отметить, что эти задачи фактически выходят за рамки моделирования (в основном английского) языка. Например, в приведенном выше примере подражателя можно было бы возразить, что ребенок, который свободно говорит по-английски на родном языке, все еще может с трудом справляться с этой задачей. Напротив, взрослый, который бегло не говорит по-английски, все же может решить эту задачу. Это поднимает вопрос о том, чего нам следует ожидать от языковой модели. Я бы сказал, что языковая модель, обученная только на простом тексте, вряд ли будет сама по себе AGI, но скорее может быть (потенциально очень полезным) компонентом, помогающим создавать возможности AGI.

А как насчет других крупных NLM? Информации о Wu Dao 2.0, которая на порядок больше, чем GPT-3, не так много. Предположительно, он превзошел GPT-3 по производительности на тесте SuperGLUE и обучен различным модальностям (аудио, текст, изображения), поэтому можно предположить, что его возможности выходят за рамки GPT-3. Насколько я понимаю, модель в настоящее время недоступна за пределами партнерской сети.

В целом, NLM действительно обобщают, и в некотором смысле замечательно, как далеко уходит простая корреляция слов. Тем не менее, жюри все еще открыто, можно ли научить его понимать причинно-следственные связи, которые Bengio или Schölkopf признают главной следующей задачей ИИ на пути к обобщению.

Дилемма маркировки данных (также известная как «проблема управления NLM»)

Неконтролируемое обучение считается ключевым ингредиентом исследований в области AGI, поскольку получение помеченных данных часто требует очень много времени и дорого. Предварительное обучение без учителя было очень полезным, как показали результаты в нескольких областях и задачах в НЛП за последние годы.

Однако это приводит к ключевой проблеме: несмотря на то, что для неконтролируемого предварительного обучения доступен большой объем текста, любая модель, использующая эти большие объемы текста, также наследует статистические корреляции и закономерности в таких текстах. Дилемма состоит в том, что изучение такой корреляции - это именно то, чему обучается большинство языковых моделей. Как это обычно бывает в искусственном интеллекте (и информатике в целом), вы получаете именно то, что указали. Это означает, что любая непреднамеренная предвзятость, включая нецензурную лексику, дискриминационный язык и т. Д., Будет поэтому содержаться в языковой модели. С моей точки зрения, это частный случай общей Проблемы управления ИИ, то есть проблемы построения потенциально сверхразумной системы, которая может непреднамеренно причинить вред нам, людям. Поэтому я буду называть это здесь Проблемой управления NLM. Это проблема для большинства практических случаев использования, когда организациям необходимо сохранять определенный уровень контроля над тем, что делают их системы НЛП.

Проблема управления NLM наиболее часто анализируется в контексте непреднамеренной предвзятости, и недавно сам OpenAI опубликовал процесс улучшения поведения языковой модели с использованием только небольшого тщательно подобранного набора данных. Хотя эти и другие результаты являются многообещающими, проблема контроля NLM выходит за рамки предотвращения непреднамеренной предвзятости: я считаю, что нам нужны более общие методы для проверки, удаления, обновления и внедрения знаний в языковые модели. Большинство организаций, использующих нейронные языковые модели, могут быть впечатлены готовой производительностью в режиме обучения за несколько шагов, но затем упираются в стену, пытаясь оптимизировать модель и адаптировать ее к своим конкретным случаям использования (см. Эта бумага"). Более того, распространенный сценарий состоит в том, что модель должна соединять графы знаний или любые другие формы структурированных знаний как форму «основной истины, из которой могут быть получены ответы. Формулируется в более общем виде:

«Мы должны переориентировать, работая над разработкой структуры для построения систем, которые могут регулярно приобретать, представлять и манипулировать абстрактными знаниями, используя эти знания для построения, обновления и рассуждения над сложными внутренними моделями внешнего мира. . »

- Гэри Маркус в Следующем десятилетии искусственного интеллекта

Было несколько подходов к решению этой проблемы, и я считаю, что обоснование, проверка и извлечение знаний будут иметь решающее значение для будущего нейронных языковых моделей. Без какой-либо формы основания и полагаясь только на корреляцию, NLM очень трудно выйти за рамки поверхностного понимания текста, который они обрабатывают. Ясно, что обсуждаемые до сих пор вопросы нуждаются в большом количестве исследований. Однако действительно ли мы способны значительно продвинуться в тех областях, в которых большинство из нас не имеет доступа к очень крупномасштабным моделям нейронного языка? Об этом я и расскажу дальше.

Неужели большинство исследователей лишены возможности исследовать крупномасштабные модели нейронного языка?

Хорошо известно, что аппаратные ресурсы, необходимые для построения крупномасштабных нейронных LM, огромны. GPT-3 был обучен на суперкомпьютере OpenAI с 10 000 графических процессоров, и один запуск обучения стоит миллионы долларов. Более того, GPT-3 лицензируется исключительно Microsoft, и для доступа к модели требуются запросы, которые не обязательно должны приниматься OpenAI. Доступ к Wu Dao 2.0 также доступен не всем исследователям. Это означает, что большинству исследователей необходимо экспериментировать с малыми и средними NLM. Однако этого недостаточно - в конце концов, основная идея исходного документа GPT-3 заключалась в том, что масштаб модели значительно влияет на результаты (подробнее об этом ниже). Оставление столь важной области исследований, которая потенциально может повлиять на жизни миллионов (если не миллиардов) людей, нескольким организациям и странам, создает риск не только для исследований ИИ, но и для общества в целом.

Что можно сделать, чтобы преодолеть эти проблемы? Одно из направлений - работать с моделями меньшего размера с аналогичными характеристиками или характеристиками. Например, в недавней интересной статье исследуются возможности быстрого обучения маломасштабных NLM. Другое направление - использование более производительного или специализированного оборудования. Это, вероятно, сыграет важную роль в обучении будущих NLM. Однако я считаю, что, несмотря на эти усилия, для большинства исследователей не удастся получить доступ к наиболее конкурентоспособным языковым моделям и использовать их (см. Также этот пост моего коллеги Кристиана Керстинга). Чтобы преодолеть это, существуют важные инициативы, такие как BigScience, которые объединяют множество исследователей. Моя собственная команда будет играть важную роль в недавно приобретенном проекте под названием OpenGPT-X, который сделает крупномасштабные NLM доступными для всех исследователей на основе инфраструктуры GAIA-X (вопиющая самореклама: мы нанимаем и если вы хотите работать в OpenGPT-X, подайте заявку здесь). OpenGPT-X запустится в конце 2021 года и будет работать в течение 3 лет. По всему миру потребуются дальнейшие инициативы, чтобы сделать NLM более доступными и поддерживать широкий спектр языков.

Чего нам ожидать в будущем?

Все вышеперечисленное особенно важно, потому что в будущем нам могут потребоваться еще более крупные нейронные языковые модели: результаты исследований пока показывают, что их ограничения не достигнуты, как показано на рисунке ниже. Другими словами: даже более крупные нейронные языковые модели, скорее всего, дадут даже лучшие результаты. Даже 175 миллиардов параметров GPT-3 все еще ниже, чем количество синапсов в человеческом мозгу, которое содержит более 125 триллионов синапсов только в коре головного мозга. Будут ли ограничения? Естественно, наши собственные способности понимания будут препятствием: входные тексты для NLM (в основном) производятся людьми, так что понимание языка на человеческом уровне также будет обозначать границу, на которой дальнейшее масштабирование моделей не приведет к дальнейшим улучшениям. Однако мы мало что узнаем о точных ограничениях и границах, пока не попробуем.

В этом направлении достигнут прогресс: в начале этого года Switch Transformers уже превзошли отметку в триллион параметров при (относительно) низких вычислительных затратах. В мае 2021 года Google представил LaMDA на своей ежегодной конференции ввода-вывода, на которой было специально продемонстрировано использование очень больших языковых моделей для чат-ботов. Wu Dao 2.0 был выпущен в июне этого года и имеет размер в десять раз больше, чем GPT-3, с общими параметрами 1,75 триллиона. Он использует как текстовые, так и графические данные и обеспечивает высочайшую производительность при решении широкого круга задач. Почти наверняка масштаб моделей будет увеличиваться и в дальнейшем - при этом мы будем надеяться, что это не помешает значительной части сообщества НЛП исследовать и улучшать возможности таких моделей.

Заключительные мысли

Каков последний вывод по вопросу, поднятому в заголовке этого сообщения? На данный момент остается открытым вопрос, станут ли крупномасштабные нейронные LM существенным строительным блоком для AGI. Имеющиеся на данный момент свидетельства указывают на то, что это не тупик, а довольно интересная область исследований, границы которой еще не исследованы полностью. Однако я считаю, что они вряд ли принесут дальнейший прорыв при использовании в автономном режиме, т.е. только предварительное обучение простым задачам предсказания слов с использованием большого количества текста недостаточно - комбинации с другими формами знаний являются многообещающими. Как указывалось выше, с моей точки зрения, необходимы более глубокие исследования возможностей обобщения таких моделей и проблемы управления NLM. Это потребует значительной исследовательской деятельности, и поэтому крайне важно не ограничивать эту деятельность исследовательскими лабораториями ограниченного числа компаний по всему миру, а активизировать исследовательское сообщество НЛП в целом.

Модели нейронного языка - путь к общему искусственному интеллекту или тупик?

Похожие вопросы