Мы все это терпим. Слишком жарко. И я имею в виду СЛИШКОМ жарко. Вы едва можете выйти на улицу, не потея, как дислексик, в Колесе фортуны (для программистов «снаружи» — это место, где ваш удивительный проект Django на http: //127.0.0.1:8000/ больше не работает). Так почему бы не извлечь максимальную пользу из этой ситуации и не почитать вместе мои лично отобранные текстовые статьи для чтения летом 2022 года.

README.md

Это не технический документ. Извините ботаники. Идея состоит в том, чтобы дать читателю занимательную историю об этих последних четырех месяцах, связанных с генерацией текстовых изображений. Ссылка на каждый упомянутый документ будет предоставлена ​​на тот случай, если вы захотите погрузиться глубже.

Кроме того, все личные комментарии, сделанные в этой статье, следует воспринимать с долей сарказма.

Сказав это, давайте погрузимся в океан недавних исследовательских работ! 🌊🐋

Модели преобразования текста в изображение

Хочешь взглянуть на это? Был целый месяц без нового состояния искусства по созданию текстовых изображений! Это должен быть какой-то рекорд на 2022 год…

Модели преобразования текста в изображение существуют уже давно. Я помню такие статьи, как StackGAN (2017, Han Zhang et. al.), которые показали потрясающие результаты для того времени. Он был довольно надежным и представлял собой двухэтапный метод генерации изображения, когда изображение с низким разрешением генерируется из текста, а затем подвергается повышающей дискретизации (это вам знакомо? Нет? Ну… тогда продолжайте читать!).

Далль·Е v2

Я знаю, о чем вы думаете: «Я видел Dall·E v2, эти результаты меня не удивляют». Что ж, мне не нравится ваше отношение, но вы правы. Сети генерации изображений в этом году невероятно подскочили в качестве, даже до такой степени, что невозможно сказать, что это сгенерированное изображение.

Вам, наверное, интересно, что здесь произошло. И я назову вам главного виновника: Модели диффузии. Я упомянул эту модель в своей последней истории, поэтому не буду объяснять ее здесь (я хочу создать цепочку зависимости в своих историях, как в маркетинге кинематографической вселенной Marvel). Hierarchical Text-Conditional Image Generation with CLIP Latents (2022, Aditya Ramesh et. al.), или, как наиболее известно: Dall·E v2, использует классный новый способ представления пар изображение-текст: CLIP (если вы хотите узнать больше, вы знаете, моя последняя история), чтобы получить вложение изображения, обусловленное подписью (до) и использовать это представление для создания изображения (декодера) с использованием диффузии. Достаточно просто.

Вы, вероятно, подумаете, что результаты невозможно превзойти: физика света идеальна, композиция прямо от художника, детализация, цвет, генерация текста… Генерация текста?

Да, Dall·E v2 не умеет писать текст (по крайней мере, человекочитаемый текст), и теперь, когда мы здесь, я должен сказать, что и физическое местоположение толком не понимает…

Так что да, оставалось еще немного места для улучшения. Мы с нетерпением ждали…

Изображение

Ожидание было коротким. Месяц спустя компания Google Research опубликовала статью Фотореалистичные модели распространения текста в изображение с глубоким пониманием языка (2022, Читван Сахария и др.), более известную под маркетинговым названием: Imagen. . В исследовании глубокого обучения ДОЛЖНА быть ветвь, посвященная именованию моделей, которую я пропустил…

Как видите, Imagen может генерировать на изображении человекочитаемый текст. Мало того, качество генерации изображения метрически выше, чем у Dall·E v2, и он способен понимать физическое пространство.

Генерация изображения выполняется с помощью диффузионной модели в небольшом масштабе, а затем дискретизируется до 1024x1024 пикселей (теперь вы получаете ссылку на StackGAN!). Но если метод генерации аналогичен тому, что используется в Dall·E v2, в чем разница? Imagen использует общие модели больших языков, предварительно обученные только тексту (не парам изображение-текст), а также размер этого кодировщика текста получает обновление A+, что приводит к гораздо большей точности конечного изображения. Все это сделано в удивительно простой архитектуре.

Ну… Это все, ребята. Очевидно, больше моделей не упоминать. Не было достаточно времени, чтобы разработать новый уровень техники в области создания текстовых изображений… Я имею в виду… Верно? Google Research, что вы делаете с этими 200 TPU? Ты бы не… Не может быть…

партия

Масштабирование авторегрессионных моделей для преобразования текста в изображение с богатым содержанием (2022, Jiahui Yu et. al.) или… Parti. Не буду даже пытаться комментировать имя здесь.

МЕСЯЦ! Всего за месяц появилась новая модель. Обычно у меня уходит неделя на программирование скрипта для DataLoader! Хорошо… Давайте все успокоимся… Вдох… Выдох… Он даже не использует модели диффузии! Ффс…

Правильно, вы это слышали. Диффузии здесь не найти. Эта модель использует… дайте-ка посмотреть… Конечно, она использует Vision Transformers… Генеративно-состязательные сети, что? В смысле, давно не виделись, хоть что-то классическое… а что еще…? Векторное квантование! Правильно, здесь не осталось ни одной техники. Модель авторегрессии от последовательности к последовательности, состоящая из двух этапов: токенизатор изображения, который преобразует изображение в последовательность дискретных токенов с использованием архитектуры ViT-VQGAN; а второй этап представляет собой авторегрессионную модель последовательностей, которая принимает текст в качестве входных данных и обучается с использованием предсказания следующего токена дискретных токенов, сгенерированных на предыдущем этапе. Эта архитектура упрощает масштабирование, и, во что бы то ни стало, до 20 миллиардов параметров. Мех, я имею в виду, это всего около 25% от количества нейронов в человеческом мозгу.

У Parti есть все: качество изображения, разборчивый текст, понимание физического пространства, способность генерировать вомбата на пляже, потягивающего мартини в гавайской рубашке, композиция… и все эти способности улучшаются по мере увеличения размера модели.

Есть место и для совершенствования. Например, модели все еще не хватает понимания счета (по крайней мере, с семи); и рисовать объекты, которые вы указали как отсутствующие, среди прочего.

С этими результатами можно только гадать, что ждет нас через 30 дней с сегодняшнего дня. Уже существует генерация текстового видео… когда будет выпущен первый фильм, полностью сгенерированный искусственным интеллектом? Некоторые фильмы, кажется, уже имеют сценарии, созданные искусственным интеллектом… Почему вы вдруг сказали Звездные войны Диснея? Я их вообще не упоминал… Странно… 🤔

Небольшое замечание о хорошо известном и комментируемом предвзятости этих моделей: тот факт, что изображения, созданные для таких подсказок, как «строитель» или «солдат», как правило, являются мужчинами; а такие подсказки, как «медсестра» или «школьный учитель», как правило, принадлежат женщинам. Но эти предубеждения статистически верны в соответствии с данными, на которых обучены, конечно, модель не имеет ничего общего с этими результатами. Если вы хотите изменить предвзятость, измените данные. Однако примите во внимание, что данные генерируются из всего Интернета, так что, возможно, нам самим нужно сначала измениться, и данные будут автоматически отражать нас. Не имеет смысла винить в этом исследователей, имхо.

Но я знаю тебя, ты подлый маленький умный голубь. Вы, наверное, думаете: «Если эти модели так хороши, почему архитектуры на базе Dall·E (Dall·E v2, Dall·E-mini) стали популярными, а другие нет?”.Ну ты же не мыслитель. Остальные даже не думают становиться общедоступными. Возможно, качество генерации изображения и понимание сцены Dall·E v2 уступает тем, что показаны в других статьях, но в этом и заключается ответ: то, что показано в других статьях… результаты, представленные в Parti, например, не только тщательно подобраны, но и вводимые подписи для получения этих результатов также выбираются методом проб и ошибок, так что, возможно, они больше подходят для лаборатории, чем для публичного использования.

ПРОЩАЙ.мд

Это оно. Это все, что я хотел рассказать вам об этих последних четырех месяцах исследований в области моделей генерации изображений, обусловленных текстом. Надеюсь, у вас было достаточно развлечений, чтобы подумать о том, чтобы подписаться на меня, чтобы никогда не пропустить новую историю, и, черт возьми, вы достаточно безумны, чтобы также подписаться на мою страницу LinkedIn и GitHub… Но нет, даже вы не такие уж сумасшедшие…

По сложившейся здесь традиции, давайте не будем грустно прощаться и поделимся забавным видео о коте, у которого замирает мозг во время поедания мороженого:

Понравилась история? Может 👏? 😊 Пожалуйста, прокомментируйте свое мнение в сторис или если что-то не так! Увидимся в следующем! 👋✌️