Привет, это Аллен из Zeals.

Недавно я нашел одну замечательную работу, которую разместил bryandlee на github, FreezeG, результат этой работы совершенно ошеломляющий, почти самая интуитивная модель трансформации, которую я когда-либо видел.

Как здорово! Я сразу же захотел поиграть на нем, здорово, что bryandlee предоставила предварительно обученную модель здесь, чтобы я мог скачать ее и поиграть с ней.

Изучение скрытого пространства

После загрузки моделей cat и cat2wild из указанной выше проблемы, поскольку на моем устройстве, над которым я работаю, не было графического процессора, я вместо этого запустил его на colab.

Само репо уже поставляется с интерактивной демонстрацией приложения gradient, просто измените argparse на код, запускаемый на colab

Запустил интерактивную демонстрацию в Google Colab, и модель также работает хорошо!

Вы можете изменить случайное семя и создать разных котят

Как это работает?

Из readme репозитория мы знаем, что идея этой работы состоит в том, чтобы заморозить только более поздние слои других предварительно обученных моделей, поэтому слои более высокого уровня, которые обрабатывают отображение функций, заморожены, но только слои, генерирующие стиль, включены для обучения.

Погрузившись в код, чтобы проверить, какие слои точно заморожены bryandlee, сравнив код с исходным репо, мы увидим, что эта часть кода добавляется при обучении генератора.

Мы видим, что для обучения включены только слои convs и to_rgbs, все остальное заморожено

Мы можем подтвердить, что модель сопоставления генератора полностью заморожена во время обучения, поэтому мы знаем, что при одинаковом z исходная и целевая модели будут генерировать одинаковое w.

Для stylegan2 правая сторона модели изменилась на структуру ниже.

Таким образом, мы также можем видеть, что только частичные слои модели синтеза включены для обучения, слой Conv внутри графика (c) и ссылаясь на официальный исходный код stylegan2, слой to_rgbs включен для обучения в каждом блоке.

Поскольку и исходная, и целевая модель имеют одинаковый w, с одинаковыми отображениями признаков, в контексте создания изображения животного это означает положение глаз, рта, ушей и т. Д. Вот почему сгенерированные изображения выглядят совершенно одинаково, но с разницей только в стилях.

Регулировка скрытых направлений

Благодаря оригинальной реализации с помощью rosinality, мы действительно можем использовать этот скрипт для генерации скрытых направлений для редактирования сгенерированного изображения.

Просто бег

Этот скрипт извлекает собственные векторы из входной модели и создает meaningful направление для настройки изображения, но эти факторы произвольны, и если вы ищете четко определенные регулируемые направления, вы можете проверить мою предыдущую статью.

Сравнивая с изображением, включенным в предыдущий раздел, мы можем видеть сгенерированное изображение с гораздо более светлым цветом с точки зрения кожи.

Передача стиля…?

Результат выглядит многообещающим, но можно ли его на самом деле использовать для сквозной передачи стилей изображения? быстрый ответ будет весьма ограниченным.

Учитывая, что нам понадобится z для обоих входных данных модели, это означает, что нам нужно проецировать реальные изображения в скрытое пространство.

В оригинальном репо был включен проектор на основе модели VGG, давайте попробуем, как он будет выглядеть.

Благодаря моему коллеге Такакуда-сан, который публикует свои изображения внутри нашей компании с лицензией CC, я могу использовать его для входного изображения.

После 1k итерации ближайший найденный скрытый вектор - это, а сгенерированное изображение выглядит так.

Что ж, у них действительно похожий цветовой тон, но трудно сказать, что он проецировался успешно, поскольку скрытое пространство ограничено, что не может отражать все изображения.

Bryandlee недавно опубликовал новую модель here, которая представляет собой перенесенную на FFHQ модель в стиле вебтун.

Это результат преобразования, который я использовал из FFHQ в модель вебтун.

Ради интереса, давайте также поместим скрытый вектор, который мы только что преобразовали из Такакудан-сан, в эту модель.

хм, по крайней мере, это похоже на человека после конвенции!

Что дальше?

Это потрясающая работа, и я с нетерпением жду новых идей. Я также хочу попробовать потренироваться с моим пользовательским набором данных. Если у меня получится заставить что-то работать, я напишу еще раз!