Крупномасштабные предварительно обученные трансформеры учатся на корпусах, содержащих океаны фактических знаний, и на удивление хорошо запоминают эти знания без какой-либо тонкой настройки. В новом документе команда из Microsoft Research и Пекинского университета изучает предварительно обученных преобразователей, предлагая метод определения «нейронов знания», ответственных за хранение этих знаний, и способы их использования для редактирования, обновления и даже удаления относительных фактов.

Исследователи резюмируют свой вклад следующим образом:

  1. Представьте концепцию нейронов знания и предложите метод атрибуции знаний для идентификации нейронов, которые выражают конкретное фактическое знание.
  2. Проведите качественный и количественный анализ, чтобы показать, что нейроны знания сильно коррелируют с выражением знаний в предварительно обученных преобразователях.
  3. Представьте метод явного редактирования (например, обновления или стирания) фактических знаний в преобразователях, даже без какой-либо тонкой настройки.

Сначала исследователи вводят компоненты, составляющие блок трансформатора: слой самовнимания с несколькими головками и сеть прямого распространения (FFN), состоящую из двух слоев прямого распространения. Они предлагают рассматривать FFN как банк памяти «ключ-значение», где первый уровень служит ключами, второй уровень - значениями, а каждая пара «ключ-значение» образует слот памяти.

Затем исследователи предполагают, что фактические знания должны храниться в воспоминаниях FFN и выражаться соответствующими промежуточными нейронами, которые они называют «нейронами знания». На следующем этапе они вводят метод атрибуции знаний и стратегию уточнения, предназначенную для идентификации этих нейронов знаний.

Метод атрибуции знаний основан на интегрированных градиентах, которые оценивают истинный вклад каждого конкретного промежуточного нейрона FFN в конечный результат. Таким образом, учитывая относительный факт и подсказку, можно грубо связать фактическое знание с теми нейронами, которые демонстрируют оценки атрибуции выше заданного порога.

Чтобы точно определить фактическое знание, команда уточняет свою стратегию, отфильтровывая «ложноположительные» нейроны знания, которые выражают информацию, отличную от фактических знаний.

Исследователи провели эксперименты с набором данных PARAREL, чтобы подтвердить как свою гипотезу о том, что фактическое знание выражается нейронами знания, так и эффективность предложенных ими методов атрибуции и уточнения знаний. В качестве базовой модели они выбрали популярную базовую модель BERT.

Результаты показывают, что подавление нейронов знания резко снизило правильную вероятность для соответствующих реляционных фактов в среднем на 37,03 процента, в то время как усиление нейронов знания увеличило правильную вероятность в среднем на 46,42 процента.

Исследователи также подтвердили, что нейроны знаний можно использовать для обновления знаний или даже для удаления категории знаний, хранящихся в предварительно обученных моделях. В случае использования обновления знаний они напрямую изменили несколько слотов значений, соответствующих нейронам знаний, и обнаружили, что могут исправить неверный относительный факт, запомненный предварительно обученной моделью, без какой-либо тонкой настройки. Во втором варианте использования, предназначенном для стирания личных или «неэтичных знаний», команда продемонстрировала, что точность прогнозирования отсутствующей сущности значительно снизилась после стирания четырех отношений, что указывает на то, что значительная часть личной информации была удалена. Более того, команда утверждает, что такие вмешательства могут редактировать относительные факты без значительного влияния на точность других знаний в модели.

В целом, исследование обеспечивает более глубокое понимание архитектур трансформаторов, знаний, хранящихся в предварительно обученных моделях, и того, как можно использовать нейроны знаний для явного обновления и / или стирания фактических знаний в предварительно обученных трансформаторах.

Статья Нейроны знаний в предварительно обученных трансформаторах находится на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен

Мы знаем, что вы не хотите пропустить какие-либо новости или научные открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.