Ежемесячная подборка статей по машинному обучению от Zeta Alpha: генерация звука, градиенты без обратной опоры, смесь экспертов, мультимодальность, поиск информации и многое другое.

Март наступил насыщенный событиями в мире ИИ: продолжают появляться публикации и конференции, такие как Конференция WSDM только что позади нас и AAAI тоже только что завершилась. Но давайте начнем с выделения некоторых последних новостей:

Разное: evojax (библиотека для аппаратно-ускоренной нейроэволюции), Uber теперь использует Deep Learning для ETA и MuZero используется для сжатия видео.

🔬 Исследования

Zeta Alpha отслеживает тенденции исследований ИИ, чтобы помочь вам определить, что стоит прочитать. С его помощью мы отобрали 10 статей, иллюстрирующих ключевые разработки в различных областях ИИ: поиск информации, мультиплексирование, нейронный рендеринг, мультимодальность Vision-Language, альтернативы обратному распространению и многое другое. Наслаждаться!

1. Трансформаторная память как дифференцируемый поисковый индекс

И Тай и др.

❓ Почему →Поиск информации добился огромного прогресса за последние 4 года после того, как нейронная революция наконец настигла его. Дифференцируемый поисковый индекс (DSI) — это действительно оригинальная идея, которая может быть… либо неактуальной в долгосрочной перспективе, либо изменить парадигму?

💡 Ключевые идеи →Идентификация объектов уместна, когда один объект может иметь разные имена или данное имя может быть двусмысленным без контекста (например, относится ли Манчестер к городу или его футбольному клубу). ?). Ранее для извлечения идентификаторов сущностей, появляющихся в тексте, из индекса известных сущностей часто использовался какой-либо метод поиска информации. Авторегрессионное связывание сущностей⁶ (AEL) поставило под сомнение эту процедуру, предложив идентифицировать сущности в тексте путем авторегрессивной генерации их канонического идентификатора (например, строки их полного имени).

Теперь индекс дифференцированного поиска (DSI) черпает вдохновение из AEL, применяя его для поиска документов. Вместо того, чтобы извлекать документ, выполняя лексическое сопоставление, встраивая поиск ближайшего соседа или переоценивая с помощью кросс-кодирования; модель просто учится авторегрессивно генерировать список идентификаторов документов, соответствующих заданному запросу. Это априори невероятно, потому что идентификаторы документов не содержат семантически релевантной информации: если появляется новый документ и ему присваивается новый идентификатор, вы не можете ничего сделать для выводов о его содержании.

Интуитивно вы можете думать об этом как о семантике документа из всего корпуса, кодируемой в параметры модели, так что модель действует как карта между запросами и идентификаторами документов. Как следствие, при выводе модель выполняет поиск, не даже не глядя на корпус, из которого она извлекается.

Экспериментальные результаты включают в себя различные варианты дизайна для идентификаторов документов: например, сравнение уникального токена для каждого документа со структурированными семантическими идентификаторами документов, которые полагаются на иерархическую навигацию для идентификации документа. В целом, результаты по набору данных Естественные вопросы⁷ очень многообещающие, улучшая надежные базовые показатели, такие как T5 и BM25. Интересно, что результаты резко улучшаются с размером модели; что соответствует тому, что можно было бы ожидать интуитивно: в конце концов, весь корпус нужно заучить в параметры модели!

Тем не менее остается много вопросов: насколько хорошо это можно применить к очень большим индексам? Как насчет редкости аннотаций? Может ли это как-то работать с изменяющимися индексами и новыми документами? Будущие исследования покажут, и это интересно.

2. DataMUX: мультиплексирование данных для нейронных сетей

Вишвак Мурахари, Карлос Э. Хименес, Рунже Янг, Картик Нарасимхан.

❓ Почему →Ускорение логического вывода с небольшим* снижением производительности…? *Ну, если честно, это лишь немного оптимистическое прочтение результатов, но это все же убедительная практическая идея!

💡 Ключевые выводы →Мультиплексирование данных – это широко используемый метод обработки сигналов, при котором несколько сигналов объединяются в один с целью более эффективной передачи по каналу. Авторы этой статьи предлагают аналогичный процесс для дискретных представлений, используемых в ML. Этот процесс концептуально прост:

  • Уменьшите очень большую партию до рабочего размера (например, 640 → 64) только с помощью линейных преобразований и объединения.
  • Запустите пакет через вашу модель.
  • Увеличьте прогнозы для каждой выборки до исходного размера (например, 640).

Основное преимущество этого метода самоочевидно: если вы выполняете пакетный вывод, где производительность является ключевым фактором, вы можете добиться значительного ускорения с помощью такого рода обработки. Документ также включает теоретический анализ того, как механизм внимания может работать для моделирования входных данных, которые были объединены в отдельные вложения, хотя эта процедура не зависит от архитектуры.

Падение производительности в задачах НЛП, которые они тестируют (анализ настроений, вывод на естественном языке, распознавание именованных сущностей), составляет порядка нескольких процентных пунктов при выполнении 10–20-кратного понижения дискретизации. Хотя это и не резкое падение, неясно, насколько хорошо это отразится на других задачах и модальностях, учитывая, что эти задачи НЛП «не особенно сложны» для современных больших моделей.

Кроме того, эксперименты в этой статье основаны на полном сквозном обучении модели с мультиплексированными данными; на мой взгляд, интересный вопрос для изучения: насколько хорошо это можно сделать, учитывая замороженную модель, которая была обучена регулярному выводу (не мультиплексированному). Это может иметь значение в контексте применения мультиплексирования к существующим очень большим моделям, переобучение которых обходится очень дорого.

3. Это сырое! Генерация звука с помощью моделей в пространстве состояний

Каран Гоэл, Альберт Гу, Крис Донахью и Кристофер Ре

❓ Почему →(Очень) долгосрочные — несколько тысяч шагов — зависимости в моделировании последовательностей остаются проблемой в машинном обучении. При генерации необработанного звука это проблема, потому что цифровые сигналы дискретизируются на частоте около 40 кГц, что делает нормой очень дальние зависимости.

💡 Ключевые идеи →Представление в пространстве состояний — это математическая модель физической системы, обычно используемая в теории управления, которая описывает ее в терминах состояния системы, ее производной по времени, входных данных, и выходы. Этот тип представления (основанный на матрицах и векторах) очень хорошо подходит для набора инструментов линейной алгебры, что делает его идеальным для аналитических доказательств и рассуждений о динамике, устойчивости и режимах системы.

Проблема с применением этого вида представления к моделям глубокого обучения заключается в его вычислительной податливости. Недавно в журнале Эффективное моделирование длинных последовательностей со структурированными пространствами состояний¹ была предложена новая параметризация SSM в NN, названная S4, которая включает в себя несколько числовых приемов для упрощения вычислений.

Эта статья применяет эту модель к генерации необработанного безусловного звука, называя ее SASHIMI, с целью решить 3 большие проблемы генерации необработанного звука: глобальная когерентность, вычислительная эффективность и эффективность выборки. Более того, дополнительным преимуществом использования SSM для моделирования сигналов является то, что его можно вычислять как CNN (быстро для неавторегрессивной, параллелизуемой генерации) и как RNN (быстро для чистой авторегрессионной генерации).

Когда дело доходит до эмпирических результатов, SASHIMI кажется стабильным в обучении и достигает лучших отрицательных логарифмических правдоподобий, чем такие архитектуры, как WaveNet и SampleRNN. Интересно, что авторы также показывают, как простая замена архитектуры с DiffNet² на SASHIMI (сопоставление параметров) повышает производительность без какой-либо настройки.

4. VLP: обзор предварительного обучения языку видения

Фейлонг Че и др.

❓ Почему →Мы уже много месяцев уделяем особое внимание многомодальным работам с визуальным языком машинного обучения. Пространство стало настолько большим, что в нем сложно ориентироваться, поэтому вот небольшая помощь.

💡 Ключевые идеи →Этот краткий обзор представляет собой снимок подполя, который включает таксономию с соответствующими определяющими характеристиками существующих подходов, а также их введение и

  • Цели обучения
  • Особенности зрения и особенности языка
  • Типы слияния модальностей
  • Приложение для последующих задач
  • Используемые наборы данных с метками
  • Модели кодер-декодер по сравнению с моделями только с кодировщиком

Если есть расширение, которое я хотел бы видеть в этом обзоре, так это более подробное включение последних мультимодальных работ, таких как опора на подсказки, такие как Мультимодальное малократное обучение с использованием замороженных языковых моделей³, которое мы выделили в предыдущий пост в блоге.

5. Проектирование эффективных разреженных экспертных моделей

Баррет Зоф, Ирван Белло и др.

❓ Почему →Сочетание экспертов (MoE) — еще одна из наших постоянных тем: масштабирование до еще большего количества параметров, сокращение вычислительных затрат на вывод. Если вы думаете о создании крупного МО, не ищите дальше, вы нашли свое руководство.

💡 Ключевые идеи →Основная концепция MoE проста: направлять входные данные только через подпути внутри модели во время вывода, чтобы на каждом этапе использовалась только часть параметров модели. Однако, как обычно, дьявол кроется в деталях, и несколько вариантов дизайна являются ключом к успешному созданию и обучению большого МО. В этом руководстве по дизайну подробно рассматриваются такие ключевые аспекты:

  • Стабилизирующее обучение: часто приходится идти на компромисс между стабильностью и качеством — использование методов оптимизации, обеспечивающих стабильность, таких как регуляризация или отсечение градиента, часто снижает производительность результирующей модели. Как избежать этой проблемы? Они представляют новый маршрутизатор z-loss.
  • Производительность точной настройки в последующих задачах: хотя MoE превосходно работают в режиме больших наборов данных, при точной настройке они иногда работают хуже, чем их плотные аналоги. Почему так и как этого избежать?
  • Проектирование архитектуры MoE: выбор количества экспертов и коэффициента мощности механизма маршрутизации.
  • Качественное исследование поведения модели при маршрутизации токенов через MoE.

Кульминацией этого руководства является разреженная модель MoE 269B (Stable Transferable Mixture-of-Experts или ST-MoE-32B), которая обеспечивает высочайшую производительность в разнообразных тестах естественного языка.

6. Градиенты без обратного распространения

Атылым Гюнеш Байдин и др.

❓ Почему →Что? Градиенты без бэкпропа? Как это? Почему человек вообще этого хочет? 👇

💡 Ключевые идеи →Конечные разности – это численный метод аппроксимации производной функций: оцените ее немного вправо, немного влево и оцените скорость ее изменения в этой точке. Однако в нескольких измерениях производная становится градиентом (вектором), и все становится немного сложнее. В очень общих чертах в этой статье предлагается метод оценки градиентов, основанный на конечных разностях: выборка случайных векторов (векторов возмущения) в размерности ваших параметров, оценка градиента с конечными разностями для каждого из них и их среднее значение для получения несмещенного оценка градиента.

Интуитивно, вместо аналитического вывода цепного правила по всей нейронной сети; когда прямой проход выполнен, градиент каждого параметра по отношению к его соседним параметрам, оцениваемый по значению параметра, может быть оценен с помощью этой численной процедуры.

Авторы называют это прямым градиентом и теоретически доказывают некоторые хорошие свойства, такие как его беспристрастность, и демонстрируют несколько игрушечных примеров того, как можно успешно применять градиентный спуск с помощью этой техники.

Теперь вы можете спросить: а зачем нам это вообще? Разве бэкпроп не подходит? Во-первых, этот метод обеспечивает немного лучшие вычислительные затраты во время выполнения при аналогичных требованиях к памяти по сравнению с обратным распространением. Но, возможно, что еще более важно: обратное распространение часто подвергалось критике со стороны нейробиологов как неправдоподобное с биологической точки зрения, потому что нейроны просто не имеют способности «общаться в обратном режиме»⁵ (иначе нет обратной связи). Может ли это быть шагом к механизму обучения, который является биологически правдоподобным? Авторы намекают, что это может быть так, хотя это, безусловно, потребует дальнейшего изучения.

Если вы хотите глубже погрузиться в этот метод, но не очень хорошо знакомы с используемыми методами, я нашел этот объяснительный пост Роберта Кюблера в блоге о TDS чрезвычайно полезным. Существует также статья ICLR 2022, предлагающая аналогичный подход: Обучение с помощью направленного градиентного спуска.

7. Иерархический Воспринимающий

Жоао Каррейра и др.

❓ Почему →Обновите единую архитектуру, которая управляет ими всеми.

💡 Ключевые идеи →Это новая версия Perceiver⁹, которая представляла собой подход на основе Transformer, который можно было применять к произвольным модальностям в виде длинных последовательностей (до 100 000!) токенов: зрение, язык, аудиовизуальные задания.

Это концептуально простой следующий шаг, который показывает, как последовательность, вводимая в Perceiver, может быть разбита на куски независимо от модальности, обработана отдельно, а затем успешно объединена, что авторы называют обработкой «введения локальности». Ниже вы можете увидеть общую схему этого процесса.

Основное преимущество этого подхода по сравнению с его предшественником заключается в том, что в модель можно подавать входные данные с более высоким разрешением. Интересно, что в этой статье объясняется, что для кодирования позиционных вложений позиционные вложения Фурье, созданные вручную, работают лучше, чем изученные позиционные вложения, в отличие от одномодальных текстовых или визуальных приложений.

Результаты демонстрируют конкурентоспособные характеристики (но не обязательно передовые) в области классификации изображений, аудиовизуальной классификации и семантической сегментации; но эти результаты по-прежнему зависят от некоторых расширений данных, специфичных для предметной области. Мечта о полностью независимом от модальности машинном обучении далека, это кажется шагом в правильном направлении.

8. Block-NeRF: масштабируемый синтез нейронных представлений для больших сцен

Мэттью Танчик и др.

❓ Почему →Поля нейронного излучения (NeRF) резко возросли в популярности с момента их введения в ECCV 2020⁸. Это следующий важный шаг, который показывает, как эту технику можно применять и к большим сценам.

💡 Основные выводы →NeRF – это метод, который параметризует с помощью нейронной сети создание новых видов сцены на основе нескольких примеров (то есть изображений). Этот метод показал очень многообещающие фотореалистичные результаты в широком диапазоне сцен.

Однако до сих пор эти успехи ограничивались небольшими сценами, где одна модель могла генерировать все представления. Block-NeRF — подход, предложенный в этой работе, — это вариант NeRF, который позволяет разбивать сцены на более мелкие блоки, которые можно обучать независимо, а затем объединять для создания видов сцен из произвольно больших сред, таких как город.

В этом случае несколько видеороликов будут стоить больше, чем тысяча слов, так что поразите себя их впечатляющей демонстрацией!

9. Вычислить тренды в трех эпохах машинного обучения

Хайме Севилья и др.

❓ Почему →Не слишком ли быстр MLprogress для соблюдения закона Мура? В последнее время да.

💡 Ключевые идеи →В этом документе представлен исторический обзор прогресса машинного обучения через призму обучающих вычислений с выделением 3 отдельных эпох: до глубокого обучения, глубокого обучения и эпохи крупномасштабного обучения (см. рисунок ниже). . Этот анализ основан на выявлении 123 контрольных систем машинного обучения, в которых указано, сколько вычислительных ресурсов потребовалось для их обучения.

TL;DR каждой эпохи — это то, насколько крутым является экспоненциальное увеличение требований к вычислительным ресурсам:

  • Предварительное глубокое обучение: тренировочные вычисления удваиваются примерно каждые 21 месяц.
  • Глубокое обучение: тренировочные вычисления удваиваются примерно каждые 6 месяцев.
  • Эпоха больших масштабов: обучающие вычислительные ресурсы удваиваются примерно каждые 10 месяцев, хотя начиная с более высоких требований к вычислительным ресурсам по сравнению с предыдущими моделями с AlphaGo в 2016 году.

Хотя эти категории в определенной степени произвольны, они по-прежнему интересны для прогнозирования того, как доступность вычислений повлияет на развитие машинного обучения в ближайшие годы: теперь, когда ИИ масштабируется быстрее, чем кремний, на котором он работает, простые графические процессоры не сокращают его, как раньше. до 10 лет назад, и крупномасштабная распределенная обработка, суперкомпьютеры и более специализированные ускорители искусственного интеллекта становятся ключевыми двигателями — и ограничителями! — прогресса.

10. Изучение дискретных представлений с помощью кластеризации с ограничениями для эффективного плотного поиска

Цзинтао Чжан, Цзясинь Мао, Ицюнь Лю, Цзяфэн Го, Мин Чжан Шаопин Ма.

❓ Почему →Награда за лучшую статью на конференции WSDM (Information Retrieval).

💡 Ключевые идеи →Одним из ключевых ограничений плотного поиска является то, что для быстрого поиска ближайших соседей встраивания необходимо хранить эти вложения в оперативной памяти. Это может быстро дорого обойтись: например, всего 1 миллион внедрений тысячи измерений 32-битных чисел с плавающей запятой потребует около 4 ГБ, поэтому выход на один или два порядка больше этого — что вполне возможно — может потребоваться либо массивная память на серверах, либо сегментация индексов, что также может привести к ненужной сложности и затратам.

В этой статье предлагается новый механизм квантования для встраивания документов, основанный на дифференцируемой кластеризации с ограничениями, который обеспечивает высокую степень сжатия без ущерба для производительности. Как видно на рисунке ниже, их метод квантования (RepCONC) доминирует по Парето по сравнению с существующими методами при всех коэффициентах сжатия.

Наша ежемесячная подборка заканчивается здесь; если вы хотите быть в курсе последних исследований, присоединяйтесь к нашему предстоящему вебинару в пятницу, 4 марта 2022 г., смотрите предыдущие выпуски на нашем канале YouTube и следите за нами в Твиттере @zetavector и следите за обновлениями для следующих один!

Ссылки:

[1] Эффективное моделирование длинных последовательностей со структурированными пространствами состояний Альберта Гу, Карана Гоэла и Кристофера Ре, 2020 г.

[2] DiffWave: универсальная диффузионная модель для синтеза звука Чжифэн Конг, Вэй Пин, Цзяджи Хуан, Кексин Чжао и Брайан Катандзаро, 2020 г.

[3] «Мультимодальное малократное обучение с использованием замороженных языковых моделей», Мария Цимпоукелли, Джейкоб Меник, Серкан Каби, С. М. Али Эслами, Ориол Виньялс и Феликс Хилл, 2021 г.

[5] Обратное распространение ошибки и мозг Тимоти П. Лилликрапа, Адама Санторо, Люка Марриса, Колина Дж. Акермана и Джеффри Хинтона, 2020 г.

[6] Авторегрессивный поиск сущностей, Никола Де Као, Готье Изакард, Себастьян Ридель и Фабио Петрони, 2021 г.

[7] Естественные вопросы: ориентир для исследования ответов на вопросы Тома Квятковски и др. 2019 г.

[8] NeRF: представление сцен как полей нейронного излучения для синтеза представлений Бен Милденхолл и др. 2020