Введение

В последние годы возможности обработки естественного языка (NLP) быстро расширяются благодаря развитию архитектуры преобразования, также широко известной как большие языковые модели и недавно получившего широкое распространение термина: генеративный ИИ.

Эти модели, такие как GPT-3, достигли замечательных результатов в различных задачах NLP, таких как языковой перевод, ответы на вопросы и обобщение текста.

Благодаря выпуску ChatGPT пространство для чат-ботов будет одним из тех, за которыми стоит следить в течение следующих нескольких лет.

По мере развития технологий чат-боты стали жизненно важным инструментом для предприятий любого размера. Они экономичны, доступны 24/7 и могут решать различные задачи.

Но даже с изобретением трансформеров чат-боты на предприятиях по-прежнему представляли собой в основном большие логические деревья и рудиментарные по своим возможностям — особенно по сравнению с академической успеваемостью.

Так почему же эти модели достигли сверхчеловеческой производительности в исследованиях и приложениях для обработки естественного языка (NLP), но не нашли себя в общедоступных чат-ботах?

Как работают эти суперчат-боты и что потребуется предприятиям, чтобы использовать эту технологию?

В этой серии блогов я попытаюсь ответить на эти вопросы, поскольку я отправляю вас в путешествие, чтобы понять сильные и слабые стороны недавно разрекламированной технологии и объяснить, что необходимо крупным организациям, чтобы максимально использовать ее.

Я разделил эту серию на 7 глав:

  1. Что такое большие языковые модели и преобразователи?
  2. Что делает ChatGPT таким уникальным?
  3. Сильные и слабые стороны больших языковых моделей
  4. Графики знаний: от Инь до Трансформеров Ян
  5. Достижение совершенства в чат-ботах: уроки от пяти лучших исполнителей
  6. Логические выводы в реальном времени — возможность для чат-ботов работать в режиме суперагента.
  7. Внедрение этого в производство: ML Ops

Вперед к нашей первой главе!

В этой главе мы рассмотрим:

  • Что такое большие языковые модели и преобразователи?
  • Почему большие языковые модели привели к резкому изменению производительности по сравнению с предыдущими методами НЛП?
  • Как мы докажем, что большие языковые модели достигают сверхчеловеческой производительности?
  • Краткое содержание

Что такое преобразователи и большие языковые модели?

Прежде чем мы начнем глубокое погружение в сильные и слабые стороны, мы проведем краткий ускоренный курс по основам, чтобы убедиться, что мы все на одной волне:

  • Что такое преобразователи и языковые модели?
  • Почему трансформаторы произвели скачкообразное изменение производительности?

Что такое большие языковые модели?

Вы когда-нибудь замечали, как Google предлагает следующие слова в вашем поисковом запросе по мере ввода?

Эта удобная функция поддерживается моделями больших языков (LLM).

В двух словах, эти модели отвечают за предсказание вероятности последовательностей слов таким образом, который имитирует человеческое письмо.

Они питаются от продуманной архитектуры нейронной сети, называемой трансформатором.
И они называются большими, как мы рассмотрим позже, потому что они обучаются на всем объеме текстовых данных Интернета.

Почему большие языковые модели привели к резкому изменению производительности по сравнению с предыдущими методами НЛП?

Ступенчатое изменение языковых моделей обусловлено четырьмя факторами:

  • Трансформаторная архитектура
  • Механизм внимания
  • Размер параметра
  • Количество данных, на которых они обучаются

Трансформаторный механизм (объясняется просто)

Архитектура трансформатора — это тип архитектуры нейронной сети, представленный исследователями Google в статье Внимание — это все, что вам нужно в 2017 году.

Ключевым нововведением архитектуры преобразователя является использование механизмов внутреннего внимания вместо традиционных рекуррентных нейронных сетей (RNN) или сверточных нейронных сетей (CNN).

Архитектура преобразователя состоит из кодера и декодера, состоящих из нескольких уровней.

Кодер принимает входную последовательность и создает набор скрытых состояний, которые декодер использует для создания выходной последовательности.

Каждый уровень в кодере и декодере состоит из двух подуровней: многоголового механизма самоконтроля и нейронной сети с прямой связью.

Механизм самоконтроля с несколькими головками позволяет модели взвешивать важность различных частей входной последовательности для прогнозирования; тем временем нейронная сеть с прямой связью преобразует это во что-то, что может использовать декодер.

Механизм самоконтроля

Внимание позволяет модели сосредоточиться на наиболее важных частях текста и игнорировать ненужную информацию.

Таким образом, механизм преобразования — это тип алгоритма, который позволяет модели понять контекст предложения, разбивая его на небольшие фрагменты, а затем применяя математические операции к каждому фрагменту.

Эта архитектура делает модель более всеобъемлющей и сложной для понимания человеческого языка.

Размер параметра

Размер параметра в LLM относится к количеству переменных или параметров, которые имеет модель.

Параметр или переменная относится к значению или настройке, которую модель использует для понимания и обработки текстовых данных. Эти параметры отвечают за способность модели изучать и воспроизводить образцы и нюансы человеческого языка.

Примеры параметров в LLM включают количество слоев в нейронной сети, количество нейронов в каждом слое, используемую функцию активации и скорость обучения. Эти параметры задаются разработчиками и могут быть изменены для повышения производительности модели.

Когда модель обучается, параметры корректируются во время обучения, чтобы найти наилучшие значения, которые оптимизируют производительность модели. Другими словами, значения параметров обучаются в соответствии с данными и целью модели.

Увеличение размера параметра позволяет модели обрабатывать и понимать большие объемы текстовых данных. С большим количеством параметров модель может изучать и воспроизводить шаблоны и нюансы человеческого языка.

Следовательно, это делает модель более точной и реалистичной, чем традиционные алгоритмы НЛП.

Количество данных, на которых они обучаются

Такие модели, как GPT-3 и PaLM, обучаются на огромных объемах текстовых данных, а GPT-3 обучается на наборе данных под названием WebText (570 ГБ) и Common Crawl (4,5 ТБ).

Наборы данных, используемые для обучения этих моделей, обычно берутся из различных источников, таких как книги, статьи и веб-сайты, и охватывают различные темы.

Трудно подчеркнуть, насколько велики эти корпуса текстов. Ваш типичный текстовый документ из 1500 слов будет иметь размер примерно 15 КБ. Напротив, наборы данных для GPT-3 составляли 570 ГБ — это примерно в 36 миллионов раз больше, чем ваш средний документ!

Потребляя больше данных, LLM могут изучать более широкий спектр языковых моделей и вариаций, что позволяет им воспроизводить человеческий язык и выполнять широкий спектр задач, таких как языковой перевод, ответы на вопросы и многое другое.

Как мы докажем, что большие языковые модели достигают сверхчеловеческой производительности?

Предприятиям гораздо сложнее сравнивать производительность чат-ботов друг друга по различным политическим, управленческим и техническим причинам.

При этом я верю, что есть возможность закрыть то, что в настоящее время является большим пробелом в этой области (надеюсь, я очень скоро сделаю объявление!)

Однако в академической среде существует множество тестовых наборов данных и критериев успеха, которые используются для сравнения производительности последних моделей друг с другом, некоторые из которых являются популярными:

SuperGLUE в настоящее время является одним из самых популярных тестов для понимания языка.

Как вы можете видеть в текущей таблице лидеров, семь моделей оцениваются выше человеческого уровня.

Примечание. В среднем люди прошли те же тесты и набрали 89,8 балла. Использование английской литературы или лингвистов в качестве эталона дало бы гораздо более высокий балл, который было бы бесполезно использовать для текущих возможностей.

Краткий пример того, как эти модели подвергаются испытаниям, будет заключаться в том, чтобы выделить одну из моих любимых:

Вызов схемы Винограда

Задача Winograd Schema была названа в честь ее создателя Терри Винограда, ученого-компьютерщика и философа.

Winograd Schema Challenge был создан из-за ограничений традиционных алгоритмов НЛП, которые борются с интерпретацией антецедентов местоимений и разрешением кореферентности (пониманием отношений между словами в предложении и выяснением того, какие слова, такие как «он», «она» и «оно»). " Ссылаться на).

Это критические элементы языка, которые люди обрабатывают естественным образом, но которые трудно понять компьютерам.

Задача Винограда направлена ​​на проверку способности ИИ понимать и обрабатывать эти языковые нюансы.

Задача состоит из набора пар предложений, каждое из которых содержит местоимение с неоднозначным антецедентом.

Цель состоит в том, чтобы правильно определить антецедент местоимения. Предложения должны быть простыми и понятными, но неоднозначность местоимения создает проблемы для алгоритмов ИИ.

Тест разработан так, чтобы быть более сложным, чем традиционные задачи НЛП, такие как анализ настроений, чтобы сообщество стремилось преодолеть проблему и в конечном итоге продвинуть нас к более способному ИИ!

Итак, резюмируя:

  • Преобразователи и большие языковые модели — это продвинутые модели НЛП, которые предсказывают последовательности слов так, как это делает человек.
  • Повышение производительности связано с архитектурой преобразователя, механизмом внимания, размером параметра и объемом обучающих данных.
  • Архитектура-трансформер использует внутреннее внимание вместо традиционных нейронных сетей, что позволяет модели сосредоточиться на важных частях текста.
  • Размер параметра влияет на способность модели изучать языковые шаблоны, а большие параметры позволяют получить более точные результаты.
  • Большие языковые модели обучаются на огромном количестве разнообразных текстовых данных, улучшая их способность воспроизводить человеческий язык.
  • Да, мы действительно можем сказать, что вступаем в область чат-ботов, достигающих сверхчеловеческой производительности в узких областях!

Вперед к следующей главе!

Что делает ChatGPT таким уникальным?