Методы сокращения нейронных сетей могут эффективно сократить количество параметров исходных больших обученных сетей более чем на 90 процентов без ущерба для точности. Таким образом, мы можем сделать вывод, что если сеть можно уменьшить в размерах, вместо этого можно обучить эту меньшую архитектуру, что сделает процесс обучения более эффективным.

Следуя этому выводу, в документе MIT CSAIL 2018 года были обнаружены подсети, которые обучаются с самого начала и обучаются, по крайней мере, так же быстро, как и их более крупные аналоги, при этом достигая аналогичной точности тестирования. Они назвали эти подсети «лотерейными билетами» или «выигрышными билетами», а существование таких подсетей теперь широко называют «гипотезой лотерейных билетов» (LTH).

Исследовательская группа из Технологического института Джорджии, Microsoft Research и Microsoft Azure AI недавно пересмотрела концепцию лотерейных билетов в чрезвычайно параметризованных моделях и обнаружила, что при определенных коэффициентах сжатия эффективность обобщения выигрышных билетов может не только совпадать, но и превосходить их полные модели-аналоги. Более того, команда обнаружила явление фазового перехода: по мере увеличения коэффициента сжатия производительность обобщения выигрышных билетов может достигать оптимальной точки, что позволяет им стать «супербилетами».

Предыдущие исследования показали, что выигрышные билеты могут передаваться между задачами и наборами данных и могут быть идентифицированы при точной настройке предварительно обученных моделей для последующих задач. Однако эти исследования, как правило, были сосредоточены на поиске сильно сжатой подсети с производительностью, сравнимой с полной моделью, и пренебрегали поведением выигрышных билетов в слабо сжатых подсетях.

В новой статье исследователи изучают поведение выигрышных билетов (особенно в слегка сжатых подсетях) в предварительно обученных языковых моделях. Сначала они демонстрируют, как идентифицировать выигрышные билеты в большой языковой модели Google BERT посредством структурного сокращения заголовков внимания и слоев прямой связи. Они принимают показатель важности — ожидаемую чувствительность выходных данных модели по отношению к переменным маски — в качестве меры для сокращения. Таким образом, показатель важности можно интерпретировать как сильный показатель выразительной силы, где, например, низкий показатель важности указывает на то, что соответствующая структура имеет лишь небольшой вклад в результат. После обрезки заголовков и слоев прямой связи с наименьшими показателями важности команда получила выигрышные билеты с разными коэффициентами сжатия. Супербилеты были определены как выигрышные билеты с лучшими показателями проверки при перемотке.

Команда использовала многозадачное обучение, чтобы оценить способность этих суперзаявок генерировать модели, продемонстрировав, что общие модели обычно сильно перепараметризованы. Чтобы смягчить избыточность этих общих моделей, исследователи попытались идентифицировать супер-билеты для конкретных задач и предложили новый алгоритм обмена билетами, который обновляет параметры многозадачной модели.

Команда разбирает идею, лежащую в основе их алгоритма обмена билетами: если определенная сетевая структура (например, голова внимания) идентифицируется несколькими задачами как суперзаявка, ее веса совместно обновляются этими задачами. Если он выбран только одной конкретной задачей, то его веса обновляются только этой задачей. В противном случае его веса полностью обрезаются.

Исследователи провели интенсивные эксперименты с тестом General Language Understanding Evaluation (GLUE). Сначала они доработали предварительно обученные модели BERT с данными для конкретных задач, включая ST-DNNBASE/LARGE (инициализация с помощью BERTbase/large) и SuperTBASE/LARGE (инициализация с выбранным набором супер-билетов в BERT-base/large). Затем они
провели пять испытаний с обрезкой и перемоткой, чтобы оценить производительность генерации супербилетов.

Команда подводит итоги следующим образом:

  1. Во всех задачах SuperT последовательно достигает лучшего обобщения, чем ST-DNN. Усредненное улучшение задачи составляет около 0,9 по сравнению со STDNNBASE и 1,0 по сравнению с ST-DNNLARGE.
  2. Прирост производительности суперзаявок более значителен на небольших задачах.
  3. Производительность супербилетов зависит от размера модели.

Команда также резюмирует свои наблюдения относительно фазовых переходов:

  1. Выигрышные билеты действительно являются «победителями».
  2. Фазовый переход ярко выражен на разных задачах и моделях. Точность выигрышных билетов увеличивается до определенной степени сжатия. При прохождении порога точность уменьшается, пока его значение не пересекается со значением случайных билетов.
  3. Фазовый переход более выражен в больших моделях и небольших задачах.

В целом, эта работа подтверждает, что обобщение модели можно улучшить за счет структурного сокращения, а супер-тикеты можно использовать для улучшения обобщения модели.

Статья Super Tickets in Pre-Trained Language Models: From Model Compression to Improveing ​​Generalization находится на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен, Чейн Чжан

Мы знаем, что вы не хотите пропустить ни одной новости или научного открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.