Введение
В последние годы возможности обработки естественного языка (NLP) быстро расширяются благодаря развитию архитектуры преобразования, также широко известной как большие языковые модели и недавно получившего широкое распространение термина: генеративный ИИ.
Эти модели, такие как GPT-3, достигли замечательных результатов в различных задачах NLP, таких как языковой перевод, ответы на вопросы и обобщение текста.
Благодаря выпуску ChatGPT пространство для чат-ботов будет одним из тех, за которыми стоит следить в течение следующих нескольких лет.
По мере развития технологий чат-боты стали жизненно важным инструментом для предприятий любого размера. Они экономичны, доступны 24/7 и могут решать различные задачи.
Но даже с изобретением трансформеров чат-боты на предприятиях по-прежнему представляли собой в основном большие логические деревья и рудиментарные по своим возможностям — особенно по сравнению с академической успеваемостью.
Так почему же эти модели достигли сверхчеловеческой производительности в исследованиях и приложениях для обработки естественного языка (NLP), но не нашли себя в общедоступных чат-ботах?
Как работают эти суперчат-боты и что потребуется предприятиям, чтобы использовать эту технологию?
В этой серии блогов я попытаюсь ответить на эти вопросы, поскольку я отправляю вас в путешествие, чтобы понять сильные и слабые стороны недавно разрекламированной технологии и объяснить, что необходимо крупным организациям, чтобы максимально использовать ее.
Я разделил эту серию на 7 глав:
- Что такое большие языковые модели и преобразователи?
- Что делает ChatGPT таким уникальным?
- Сильные и слабые стороны больших языковых моделей
- Графики знаний: от Инь до Трансформеров Ян
- Достижение совершенства в чат-ботах: уроки от пяти лучших исполнителей
- Логические выводы в реальном времени — возможность для чат-ботов работать в режиме суперагента.
- Внедрение этого в производство: ML Ops
Вперед к нашей первой главе!
В этой главе мы рассмотрим:
- Что такое большие языковые модели и преобразователи?
- Почему большие языковые модели привели к резкому изменению производительности по сравнению с предыдущими методами НЛП?
- Как мы докажем, что большие языковые модели достигают сверхчеловеческой производительности?
- Краткое содержание
Что такое преобразователи и большие языковые модели?
Прежде чем мы начнем глубокое погружение в сильные и слабые стороны, мы проведем краткий ускоренный курс по основам, чтобы убедиться, что мы все на одной волне:
- Что такое преобразователи и языковые модели?
- Почему трансформаторы произвели скачкообразное изменение производительности?
Что такое большие языковые модели?
Вы когда-нибудь замечали, как Google предлагает следующие слова в вашем поисковом запросе по мере ввода?
Эта удобная функция поддерживается моделями больших языков (LLM).
В двух словах, эти модели отвечают за предсказание вероятности последовательностей слов таким образом, который имитирует человеческое письмо.
Они питаются от продуманной архитектуры нейронной сети, называемой трансформатором.
И они называются большими, как мы рассмотрим позже, потому что они обучаются на всем объеме текстовых данных Интернета.
Почему большие языковые модели привели к резкому изменению производительности по сравнению с предыдущими методами НЛП?
Ступенчатое изменение языковых моделей обусловлено четырьмя факторами:
- Трансформаторная архитектура
- Механизм внимания
- Размер параметра
- Количество данных, на которых они обучаются
Трансформаторный механизм (объясняется просто)
Архитектура трансформатора — это тип архитектуры нейронной сети, представленный исследователями Google в статье Внимание — это все, что вам нужно в 2017 году.
Ключевым нововведением архитектуры преобразователя является использование механизмов внутреннего внимания вместо традиционных рекуррентных нейронных сетей (RNN) или сверточных нейронных сетей (CNN).
Архитектура преобразователя состоит из кодера и декодера, состоящих из нескольких уровней.
Кодер принимает входную последовательность и создает набор скрытых состояний, которые декодер использует для создания выходной последовательности.
Каждый уровень в кодере и декодере состоит из двух подуровней: многоголового механизма самоконтроля и нейронной сети с прямой связью.
Механизм самоконтроля с несколькими головками позволяет модели взвешивать важность различных частей входной последовательности для прогнозирования; тем временем нейронная сеть с прямой связью преобразует это во что-то, что может использовать декодер.
Механизм самоконтроля
Внимание позволяет модели сосредоточиться на наиболее важных частях текста и игнорировать ненужную информацию.
Таким образом, механизм преобразования — это тип алгоритма, который позволяет модели понять контекст предложения, разбивая его на небольшие фрагменты, а затем применяя математические операции к каждому фрагменту.
Эта архитектура делает модель более всеобъемлющей и сложной для понимания человеческого языка.
Размер параметра
Размер параметра в LLM относится к количеству переменных или параметров, которые имеет модель.
Параметр или переменная относится к значению или настройке, которую модель использует для понимания и обработки текстовых данных. Эти параметры отвечают за способность модели изучать и воспроизводить образцы и нюансы человеческого языка.
Примеры параметров в LLM включают количество слоев в нейронной сети, количество нейронов в каждом слое, используемую функцию активации и скорость обучения. Эти параметры задаются разработчиками и могут быть изменены для повышения производительности модели.
Когда модель обучается, параметры корректируются во время обучения, чтобы найти наилучшие значения, которые оптимизируют производительность модели. Другими словами, значения параметров обучаются в соответствии с данными и целью модели.
Увеличение размера параметра позволяет модели обрабатывать и понимать большие объемы текстовых данных. С большим количеством параметров модель может изучать и воспроизводить шаблоны и нюансы человеческого языка.
Следовательно, это делает модель более точной и реалистичной, чем традиционные алгоритмы НЛП.
Количество данных, на которых они обучаются
Такие модели, как GPT-3 и PaLM, обучаются на огромных объемах текстовых данных, а GPT-3 обучается на наборе данных под названием WebText (570 ГБ) и Common Crawl (4,5 ТБ).
Наборы данных, используемые для обучения этих моделей, обычно берутся из различных источников, таких как книги, статьи и веб-сайты, и охватывают различные темы.
Трудно подчеркнуть, насколько велики эти корпуса текстов. Ваш типичный текстовый документ из 1500 слов будет иметь размер примерно 15 КБ. Напротив, наборы данных для GPT-3 составляли 570 ГБ — это примерно в 36 миллионов раз больше, чем ваш средний документ!
Потребляя больше данных, LLM могут изучать более широкий спектр языковых моделей и вариаций, что позволяет им воспроизводить человеческий язык и выполнять широкий спектр задач, таких как языковой перевод, ответы на вопросы и многое другое.
Как мы докажем, что большие языковые модели достигают сверхчеловеческой производительности?
Предприятиям гораздо сложнее сравнивать производительность чат-ботов друг друга по различным политическим, управленческим и техническим причинам.
При этом я верю, что есть возможность закрыть то, что в настоящее время является большим пробелом в этой области (надеюсь, я очень скоро сделаю объявление!)
Однако в академической среде существует множество тестовых наборов данных и критериев успеха, которые используются для сравнения производительности последних моделей друг с другом, некоторые из которых являются популярными:
SuperGLUE в настоящее время является одним из самых популярных тестов для понимания языка.
Как вы можете видеть в текущей таблице лидеров, семь моделей оцениваются выше человеческого уровня.
Примечание. В среднем люди прошли те же тесты и набрали 89,8 балла. Использование английской литературы или лингвистов в качестве эталона дало бы гораздо более высокий балл, который было бы бесполезно использовать для текущих возможностей.
Краткий пример того, как эти модели подвергаются испытаниям, будет заключаться в том, чтобы выделить одну из моих любимых:
Вызов схемы Винограда
Задача Winograd Schema была названа в честь ее создателя Терри Винограда, ученого-компьютерщика и философа.
Winograd Schema Challenge был создан из-за ограничений традиционных алгоритмов НЛП, которые борются с интерпретацией антецедентов местоимений и разрешением кореферентности (пониманием отношений между словами в предложении и выяснением того, какие слова, такие как «он», «она» и «оно»). " Ссылаться на).
Это критические элементы языка, которые люди обрабатывают естественным образом, но которые трудно понять компьютерам.
Задача Винограда направлена на проверку способности ИИ понимать и обрабатывать эти языковые нюансы.
Задача состоит из набора пар предложений, каждое из которых содержит местоимение с неоднозначным антецедентом.
Цель состоит в том, чтобы правильно определить антецедент местоимения. Предложения должны быть простыми и понятными, но неоднозначность местоимения создает проблемы для алгоритмов ИИ.
Тест разработан так, чтобы быть более сложным, чем традиционные задачи НЛП, такие как анализ настроений, чтобы сообщество стремилось преодолеть проблему и в конечном итоге продвинуть нас к более способному ИИ!
Итак, резюмируя:
- Преобразователи и большие языковые модели — это продвинутые модели НЛП, которые предсказывают последовательности слов так, как это делает человек.
- Повышение производительности связано с архитектурой преобразователя, механизмом внимания, размером параметра и объемом обучающих данных.
- Архитектура-трансформер использует внутреннее внимание вместо традиционных нейронных сетей, что позволяет модели сосредоточиться на важных частях текста.
- Размер параметра влияет на способность модели изучать языковые шаблоны, а большие параметры позволяют получить более точные результаты.
- Большие языковые модели обучаются на огромном количестве разнообразных текстовых данных, улучшая их способность воспроизводить человеческий язык.
- Да, мы действительно можем сказать, что вступаем в область чат-ботов, достигающих сверхчеловеческой производительности в узких областях!
Вперед к следующей главе!