В этом посте рассматриваются некоторые сходства в том, как в области глубокого обучения решаются две, казалось бы, разные проблемы, а именно
А) недавняя работа над нейронными сетями с самостоятельным вниманием («трансформеры»), которая устраняет один из их самых больших недостатков, квадратичные вычисления. сложность по отношению к набору входных элементов и
B) работа по развязке емкости и объема памяти в рекуррентных нейронных сетях.

Вкратце о содержании поста:

Емкость и размер представления в рекуррентных нейронных сетях

В своей наиболее классической версии рекуррентные нейронные сети хранят рекуррентную память h, которая обновляется в каждый момент времени с учетом наблюдения x и двух матриц параметров U и W:

Более современные варианты вроде LSTM или GRU отличаются тем, что добавляются дополнительные гейты и нелинейности, но они не меняют сути того, о чем здесь пойдет речь. Как видно из графической версии уравнения ниже, RNN тесно связывают два разных свойства модели, которые мы хотели бы настроить отдельно: размер скрытого состояния h и пропускную способность сети:

В частности, размер матрицы переходных весов U равен квадрату размерности состояния h. Таким образом, для ванильных RNN емкость модели не может быть уменьшена без уменьшения размерности состояния, хотя иногда нам хотелось бы разделить эти два свойства: размерность состояния определяет объем информации, которую нам нужно распространять с течением времени, тогда как мощность определяет сложность математической функции, аппроксимирующей динамику системы. Нет причин, по которым эти два свойства должны быть связаны.

Было предложено несколько решений этой проблемы:

(i) низкоранговые разложения матрицы перехода U или аналогичные математические ограничения, накладываемые на ее структуру, например [2].

(ii) Удалить часть скрытого состояния и перевести его во «внешнее» представление, которое не заменяется полностью на каждой итерации, а лишь частично обновляется за счет внимания, что снижает мощность, необходимую для обновлений. Это стратегия, используемая сетями памяти [3], нейронными машинами Тьюринга [4] и их вариантами и дополнениями.

Два решения имеют схожие цели, но достигают их по-разному. Первый подход (i) сохраняет математическую структуру рекуррентных сетей и добавляет ограничения на одну из весовых матриц, что является меньшим изменением метода. Напротив, (ii) коренным образом изменяет структуру модели за счет передачи памяти внешнему компоненту.

Трансформеры и сложность

Преобразователи [5] представляют собой нейронные сети, построенные на основе запроса, ключа, значения внимания с использованием сходства скалярного произведения. Не вдаваясь в подробности того, как работают трансформеры, дорогостоящая часть — это вычисление попарного сходства между элементами набора.

или, выраженный как softmax по матрице внимания A,

где X — набор элементов, каждый элемент представлен в виде вектора, а W и V — две матрицы весов, которые линейно проецируют входные векторы в пространство, в котором сходство скалярного произведения имеет смысл (в смысле задачи на учиться). Легко видеть, что эта операция — O(N²), что создает проблемы в приложениях с большим количеством элементов, таких как изображения [6][7], видео [8] и т. д. Одна из стратегий — сократить количество взаимодействий и разрешить каждый слой должен заниматься только подмножеством элементов [8], что решает проблему внешне и не затрагивает самой концепции трансформаторов.

Две наиболее популярные попытки решить эту проблему имеют некоторое сходство с двумя различными способами (i) и (ii) для развязки емкости и представления памяти в RNN. Однако вместо того, чтобы сосредоточиться на размере представления, здесь основное внимание уделяется вычислениям и взаимодействию между элементами данных:

а) вместо выполнения вычислений полного внимания для всех пар элементов с использованием матрицы полного внимания A матрица может быть разложена с использованием разложения матрицы низкого ранга, что может привести к более эффективному вычислению [10, 11] и другие. Основная гипотеза состоит в том, что сама операция внимания в основном имеет низкий ранг и может быть описана парой сингулярных значений. Это чем-то похоже на разложение уравнения обновления RNN и, таким образом, обеспечение низкого ранга динамики динамической системы.

б) В недавней статье [12] предлагается альтернативный подход, в чем-то похожий на (ii), который выносит проблему за рамки. Вместо того, чтобы разрешить все возможные парные взаимодействия входных элементов, взаимодействия переводятся во внешнее (скрытое) представление. «Воспринимающий» [12], см. рисунок ниже, допускает само-внимание только в низкоразмерном латентном пространстве, где операции внимания обходятся дешевле. Многомерное входное пространство взаимодействует только со скрытым представлением, а не с самим собой (отсутствие собственного внимания во входном пространстве).

Сравнение может быть натянутым, но все равно интересно. Как и в первой проблеме (разделение емкости и размера представления в RNN), два решения (a) и (b) имеют схожие цели, но достигают их по-разному. Первый подход (а) сохраняет математическую структуру преобразователей и добавляет ограничения на форму матрицы внимания, что представляет собой меньшее изменение метода. Напротив, (б) коренным образом меняет структуру модели за счет аутсорсинга взаимодействия с внешним компонентом.

Твиттер: @chriswolfvision

использованная литература

[1] Наталья Неверова, Кристиан Вольф, Гриффин Лейси, Лекс Фридман, Дипак Чандра, Брэндон Барбелло и Грэм У. Тейлор. Изучение личности человека по шаблонам движения. Доступ IEEE (4): 1810–1820, 2016 г.

[2] Cijo Jose, Moustapha Cisse, Francois Fleuret,Рекуррентные единицы Кронекера, ICML 2018.

[3] Джейсон Уэстон, Сумит Чопра, Антуан Бордес,Memory Networks, ICLR 2015.

[4] Алекс Грейвс, Грег Уэйн, Иво Данихелка, Нейронные машины Тьюринга, arXiv:1410.5401, 2014.

[5] Ашиш Васвани, Ноам Шазир, Ники Пармар, Якоб Ушкорейт, Ллион Джонс, Эйдан Н. Гомес, Лукаш Кайзер, Илья Полосухин, Attention Is All You Need, NeurIPS 2017.

[6] Сяолун Ван, Росс Гиршик, Абхинав Гупта, Каймин Хе, Нелокальные нейронные сети, CVPR 2018.

[7] Алексей Досовицкий, Лукас Бейер, Александр Колесников, Дирк Вайссенборн, Сяохуа Чжай, Томас Унтертинер, Мостафа Дегани, Матиас Миндерер, Георг Хейгольд, Сильвен Гелли, Якоб Ушкорейт, Нил Хоулсби, An Image is Worth 16x16 слов: преобразователи для распознавания изображений в масштабе, ICLR 2021.

[8] Брендан Дьюк, Абдалла Ахмед, Кристиан Вольф, Пархам Аараби и Грэм В. Тейлор, SSTVOS: Разреженные пространственно-временные преобразователи для сегментации видеообъектов, CVPR 2021.

[9] Шуангфей Чжай, Уолтер Тэлботт, Нитиш Сривастава, Чен Хуан, Ханлин Гох, Джошуа М. Сасскинд, An Attention Free Transformer, openreview 2020 (ICLR 2020 отклонен).

[10] Юньян Сюн, Чжанпэн Цзэн, Рудрасис Чакраборти, Минсин Тан, Гленн Фунг, Инь Ли, Викас Сингх, Нюстрёмформер: основанный на Нюстреме алгоритм для аппроксимации собственного внимания, arXiv:2102.03902, 2021.

[11] Синонг Ван, Белинда З. Ли, Мадиан Хабса, Хан Фанг, Хао Ма, Linformer: Самостоятельное внимание с линейной сложностью, arxiv:2006.04768, 2020.

[12] Эндрю Джегле, Феликс Гимено, Эндрю Брок, Эндрю Зиссерман, Ориол Виньялс, Жоао Каррейра, Воспринимающий: общее восприятие с итеративным вниманием, arXiv:2103.03206, 2021.