ГАН, ГПТ-3, ДАЛЛ·Е 2 и что дальше

Последние десять лет были золотым десятилетием ИИ, но осмысленный ИИ только начался: CV в настоящее время является ведущей областью в отрасли, NLP остается жемчужиной ИИ, а RL с нетерпением ждет проверки. L4/L5 на дороге, но за AGI (Искусственный общий интеллект) будущее.

Генеративный ИИ — это зарождающийся, но творческий подход. Это одна из самых успешных платформ машинного обучения в развитии глубокого обучения за последнее десятилетие. Это неконтролируемое или частично контролируемое машинное обучение для создания нового контента, включая, помимо прочего, цифровые изображения, видео, аудио, текст или код. На данный момент существует две известные структуры генеративного ИИ: генеративно-состязательная сеть (GAN) и генеративный предварительно обученный преобразователь (GPT).

Генеративно-состязательная сеть (GAN)

GAN использует две нейронные сети, чтобы конкурировать друг с другом, чтобы сделать прогнозы более точными, сталкивая одну с другой (отсюда и «состязательную») для создания новых экземпляров синтетических данных, которые могут сойти за реальные данные. GAN используют совместную игру с нулевой суммой для обучения. Они широко используются для генерации изображений, видео и голоса.

Обучение GAN состоит из трех основных этапов:
1. Выберите несколько реальных изображений из обучающей выборки.
2. Сгенерируйте несколько поддельных изображений путем выборки случайных векторов шума и создания из них изображений с помощью генератора.
/> 3. Обучить дискриминатор на одну или несколько эпох, используя поддельные и настоящие изображения.

Генеративный предварительно обученный преобразователь (GPT)

GPT — это авторегрессивная языковая модель, основанная на архитектуре преобразователя, предварительно обученная генеративным и неконтролируемым образом, которая показывает достойную производительность в условиях многозадачности с нулевым/одним/несколько выстрелов.

Преобразователь представляет собой архитектуру кодер-декодер с механизмом самоконтроля. Поскольку он может получить доступ к векторам состояния каждого входного слова, в отличие от LSTM, использует только информацию о других токенах из нижних слоев и может вычисляться для всех токенов параллельно, он демонстрирует значительно улучшенную точность и производительность обучения. Он эволюционировал от BERT (представления двунаправленных кодировщиков от трансформаторов) к RoBERTa, GPT-2, T5, TuringNLG к GPT-3. BERT начинался с примерно 110 миллионов параметров, но последний GPT-3 имел 175 миллиардов параметров и 96 слоев внимания с размером пакета 3,2 миллиона и 499 миллиардов слов. Обучение обошлось примерно в 4,6 миллиона долларов. Однако есть много интересных историй о вариантах использования GPT-3.

Приложения Transformer включают, помимо прочего:
1. Создание текста
2. Суммирование текста
3. Классификацию текста (т. е. анализ тональности)
4. Перевод языка
> 5. Ответы на вопросы
6. Поиск
7. Распознавание именованных объектов

ДАЛЛ·Е 2

DALL·E 2 — замечательная система генеративного искусственного интеллекта, преобразующая текст в изображение. В основном используются два метода: CLIP (предварительное обучение контрастному языку и изображению) и диффузионные модели. CLIP необходим для соединения текстового описания с элементами изображения. Диффузионные модели представляют собой генеративные модели на основе трансформаторов. Он использует версию GPT-3, модифицированную для создания изображений. Он может комбинировать концепции, атрибуты и стили для создания более реалистичных изображений с более высоким разрешением, чем DALL·E.

Модель DALL·E представляет собой мультимодальную реализацию GPT-3 с 12 миллиардами параметров, обученную на парах текст-изображение из Интернета. DALL-E 2 использует 3,5 миллиарда параметров, что меньше, чем у его предшественника. Он эффективно оптимизирован. Мы видим возможности для лучших результатов с меньшими параметрами.

Объединение Трансформером

Есть много применений глубокого обучения, но язык и зрение являются двумя основными ветвями. Это фундаментальные области когнитивного обучения, но они разделены двумя разными моделями DL: RNN и CNN. Из-за их сложной сложности и разнообразной архитектуры ученым по машинному обучению приходилось исследовать и развивать эти две важные темы независимо друг от друга, а затем стало трудно делиться ими и развиваться вместе.

Трансформер меняет игру. Преобразователь преуспел не только в языковом моделировании, но и продемонстрировал многообещающие результаты в компьютерном зрении (CV). Vision Transformers (ViT) доступны на PyTorch и TensorFlow. Кроме того, GAN на основе трансформаторов и подобные GAN преобразователи были успешно исследованы для ИИ генеративного зрения.

Большая модель и что дальше

Мы в восторге от успеха GPT-3 и трансформатора, но это очень большие модели, требующие больших данных и суперкомпьютерной мощности. Профессор Ион Стойка проиллюстрировал рост спроса на вычисления ML, расширив исследование OpenAI следующим образом:

Рост потребности в вычислениях машинного обучения почти в 17,5 раз быстрее, чем знаменитый закон Мура. Увеличение потребности происходит как в обработке, так и в памяти. Итак, как мы можем справиться с этим взрывоопасным спросом, зная текущие проблемы закона Мура? Должны ли мы продолжать преследовать большие модели?

Большая модель сама по себе не является проблемой с точки зрения точности и производительности машинного обучения, но мы должны оптимизировать и внедрять инновации несколькими практическими способами:

  1. Ориентированность на данные или большие данные. Методология машинного обучения, ориентированная на данные, может способствовать получению высококачественных качественных данных помимо больших данных.
  2. Аппаратная инфраструктура. Графические процессоры, TPU, FPGA и другие компоненты остаются основой развития вычислительной мощности, но их распределенное облачное решение позволяет расширить возможности вычислений и памяти.
  3. Архитектура и алгоритм модели. GPT ожидает GPT-4 и GPT-5, но очень важно оптимизировать архитектуру модели и продолжать изобретать лучшие модели.
  4. Проектирование фреймворка — это ключ к оптимизации обучения машинному обучению и внедрению обслуживания. Например, Ray — это платформа с открытым исходным кодом для простого производства и масштабирования рабочих нагрузок Python ML.

В двух словах

Генеративный ИИ — это новая и инновационная технология для создания цифрового контента. И GAN, и GPT — это две проверенные платформы машинного обучения для образов и языков. Трансформеры изменили правила игры, объединив два предмета DL (CNN и RNN), что также можно применить к генеративному ИИ. Преобразователи авторегрессии могут обеспечить унифицированную архитектуру как для визуальных, так и для языковых генерирующих решений.

Существует множество значимых генеративных приложений для цифровых изображений, видео, аудио, текста или кода. Вскоре генеративный ИИ можно будет распространить на метавселенную и web3, которым требуется все больше автоматического создания цифрового контента.

Рекомендации

1. Генеративные состязательные сети: https://arxiv.org/abs/1406.2661
2. Внимание — это все, что вам нужно: https://arxiv.org/pdf/1706.03762.pdf
3. Подробности DALL·E 2: https://openai.com/dall-e-2/
4. Ион Стойка — Рэй: Универсальная структура для распределенных систем: https://youtu.be /tgB671SFS4w