Объяснение документов 47: Суслик

В этой статье представлен анализ производительности языковой модели на основе Transformer в широком диапазоне масштабов модели — от моделей с десятками миллионов параметров до модели с 280 миллиардами параметров под названием Gopher. Эти модели оцениваются по 152 различным задачам, в большинстве из которых достигается самая современная производительность. Выгоды от масштаба самые большие в таких областях, как понимание прочитанного, проверка фактов и выявление токсичного языка, но логические и математические рассуждения видят меньшую пользу.

Модели

В этой статье представлены результаты шести языковых моделей Transformer с числом параметров от 44 миллионов до 280 миллиардов. Мы называем самую большую модель Gopher, а весь набор моделей — семейством Gopher.

Мы используем авторегрессионную архитектуру Transformer с двумя модификациями:

RMSNorm вместо LayerNorm
Схема относительного позиционного кодирования, а не абсолютное позиционное кодирование. Относительное кодирование позволяет оценивать более длинные последовательности, чем обученные, что улучшает моделирование статей и книг.

Мы размечаем текст с помощью SentencePiece со словарем в 32 000 и используем отсрочку на уровне байтов для поддержки моделирования с открытым словарем.

Обучение

Мы обучаем все модели для 300 миллиардов токенов с окном контекста 2048 токенов, используя оптимизатор Adam. Мы повышаем скорость обучения с 10−7 до максимальной скорости обучения за первые 1500 шагов, а затем уменьшаем ее в 10 раз, используя график косинуса.

По мере увеличения размера модели мы уменьшаем максимальную скорость обучения и увеличиваем количество токенов в каждой партии. Кроме того, во время обучения мы увеличиваем размер пакета Gopher с трех до шести миллионов токенов на пакет.

Мы обрезаем градиенты на основе глобальной нормы градиента, используя значение отсечения 1. Однако для модели 7.1B и для Gopher мы уменьшаем это значение до 0,25 для повышения стабильности.

Мы включаем числовой формат bfloat16, чтобы уменьшить объем памяти и увеличить производительность обучения. Модели меньше 7.1B обучаются с параметрами float32 смешанной точности и активациями bfloat16, в то время как модели 7.1B и 280B используют активации и параметры bfloat16. параметры bfloat16 обновляются с использованием стохастического округления для обеспечения стабильности.

Впоследствии мы обнаружили, что стохастическое округление не полностью восстанавливает эффективность обучения смешанной точности.

Набор обучающих данных

Мы обучаем семейство моделей Gopher на MassiveText, коллекции больших текстовых наборов данных на английском языке из различных источников: веб-страниц, книг, новостных статей и кода.

Наш конвейер данных включает фильтрацию качества текста, удаление повторяющегося текста, дедупликацию похожих документов и удаление документов со значительным перекрытием наборов тестов. Мы обнаружили, что последовательные этапы этого конвейера улучшают производительность языковой модели на последующих этапах, подчеркивая важность качества набора данных.

Фильтрация: документы не на английском языке удаляются из всех подмножеств. В MassiveWeb также удаляются страницы, не прошедшие фильтр безопасного поиска Google (который идентифицирует явный контент).
Извлечение текста (MassiveWeb): текст извлекается из веб-страниц путем идентификации связных блоков выделенного текста в семантических тегах разметки HTML. Форматирование, такое как отступы и маркеры, сохраняются.
Фильтрация качества (MassiveWeb): для удаления некачественных данных применяются различные эвристики. Документы с недостаточным количеством слов или средней длиной слова, чрезмерным использованием символов или высокой долей использования маркеров или многоточия отфильтровываются. Также применяется фильтрация стоп-слов.
Удаление повторов (MassiveWeb): удаляются документы с чрезмерным повторением строк, абзацев или n-грамм. Для расчета доли дублированного контента на разных уровнях используются разные подходы.
Дедупликация документов: точные дубликаты удаляются, а почти дубликаты идентифицируются с помощью алгоритма MinHash на основе сходства 13-граммового Jaccard. Один случайно выбранный документ удаляется для каждой почти дублирующейся пары.
Фильтрация тестового набора: документы, аналогичные документам в тестовых наборах (Wikitext103, C4, Curation Corpus, LAMBADA), удаляются на основании сходства 13-граммового Jaccard. Страницы Википедии, используемые в тестовых наборах Wikitext103, также удаляются из набора обучающих данных, чтобы предотвратить утечку.