Цифровым медиа нужны реалистичные цифровые лица. Недавний всплеск платформ дополненной и виртуальной реальности привел к еще большему спросу на высококачественный контент, а рендеринг реалистичных лиц играет решающую роль в обеспечении взаимодействия лицом к лицу между цифровыми аватарами в смоделированных средах.

Итак, что может быть идеальным алгоритмом? Человек делает мобильное «селфи» изображение, загружает изображение и получает аватар в смоделированной среде с точно смоделированной формой лица и отражательной способностью. На практике, однако, идут существенные компромиссы, чтобы сбалансировать объем вводимых данных, которые должны быть захвачены, объем требуемых вычислений и качество конечного вывода.

Несмотря на высокую сложность задачи, группа исследователей из USC Institute for Creative Technologies утверждает, что их модель позволяет эффективно создавать точные, высокоточные 3D-аватары из одного входного изображения, снятого в неограниченной среде. Кроме того, аватары будут близки по качеству к аватарам, созданным профессиональными системами захвата, но потребуют минимальных вычислений и специальных знаний со стороны фотографа.

Итак, давайте познакомимся с их подходом к созданию высококачественных аватаров из одного изображения без больших вычислений или ручных усилий.

Обзор предлагаемого подхода

Прежде всего, модель обучается с помощью сканов лица с высоким разрешением, полученных с помощью современной многовидовой фотометрической системы сканирования лица. Этот подход помогает получить геометрические карты и карты отражения с высоким разрешением и высокой точностью из входного 2D-изображения, которое может быть снято при произвольном освещении и содержит частичные окклюзии лица. Затем полученные карты можно использовать для визуализации привлекательного и реалистичного трехмерного аватара в новых условиях освещения. Весь процесс можно выполнить за секунды.

Учитывая сложность задачи, она была разбита на несколько задач, которые решаются отдельными сверточными нейронными сетями:

· Этап 1 включает получение грубой геометрии путем подгонки трехмерной модели шаблона к входному изображению, извлечение исходной карты альбедо лица из этой модели, а затем использование сетей, которые оценивают инвариантное к освещению зеркальное отражение и диффузное альбедо и карты смещения из этой текстуры.

· Этап 2: предполагаемые карты, на которых могут отсутствовать области из-за окклюзии на входном изображении, передаются через сети для завершения текстуры. Текстуры высокой точности получаются с использованием сети трансляции изображения в изображение с несколькими разрешениями, в которой скрытые сверточные элементы переворачиваются для достижения естественной степени симметрии при сохранении локальных вариаций.

· Этап 3: другая сеть используется для получения дополнительных сведений в завершенных регионах.

· Этап 4: сверточная нейронная сеть выполняет сверхразрешение, чтобы увеличить разрешение в пикселях завершенной текстуры с 512 × 512 до 2048 × 2048.

Обсудим подробнее архитектуру предложенной модели.

Модель Архитектура

Конвейер предлагаемой модели проиллюстрирован ниже. Для одного входного изображения извлекаются базовая сетка и соответствующая карта текстуры лица. Эта карта проходит через две сверточные нейронные сети (CNN), которые выполняют логический вывод для получения соответствующих карт отражения и смещения. Поскольку эти карты могут содержать большие отсутствующие области, следующий шаг включает завершение текстуры и уточнение для заполнения этих областей на основе информации из видимых областей. И, наконец, выполняется сверхвысокое разрешение. Полученные в результате карты отражательной способности и геометрии с высоким разрешением можно использовать для визуализации аватаров с высокой точностью в новых условиях освещения.

Отражение и геометрия. Алгоритм попиксельной оптимизации используется для получения базовой геометрии лица, ориентации головы и параметров камеры. Эти данные затем используются для проецирования лица на текстурную карту в УФ-пространстве. Область, не связанная с кожей, удаляется. Извлеченная текстура RGB подается в модель архитектуры U-net с пропускными соединениями для получения соответствующих карт диффузного и зеркального отражения, а также карт средне- и высокочастотного смещения.

Для достижения наилучшей общей производительности использовались две сети с идентичной архитектурой: одна работала на карте диффузного альбедо (подповерхностный компонент), а другая - на тензоре, полученном объединением карты зеркального альбедо с картами смещения средних и высоких частот. (вместе поверхностные компоненты).

Завершение текстуры с учетом симметрии. И снова лучшие результаты были получены при обучении двух сетевых конвейеров: один конвейер - для завершения диффузного альбедо, а другой - для завершения других компонентов (зеркального альбедо, среднего и вытеснение высокого уровня).

Затем было обнаружено, что заполнение больших областей с высоким разрешением не дает удовлетворительных результатов из-за высокой сложности цели обучения. Таким образом, проблема с рисованием была разделена на более простые подзадачи, как показано на рисунке ниже.

Кроме того, исследователи использовали пространственную симметрию УФ-параметризации и максимально увеличили охват элементов, переворачивая промежуточные элементы по оси V в УФ-пространстве и объединяя их с исходными элементами. Это позволило законченным текстурам содержать естественную степень симметрии, как на реальных лицах, вместо сверхъестественной степени почти идеальной симметрии.

Каждая сеть была обучена с использованием оптимизатора Adam со скоростью обучения 0,0002.

Результаты

Количественные оценки способности системы точно восстанавливать данные об отражательной способности и геометрии из набора из 100 тестовых изображений представлены в таблице ниже.

Несмотря на то, что мы наблюдаем относительно большие отличия от реальных результатов зеркального альбедо, качественные оценки демонстрируют, что предполагаемых данных все еще достаточно для рендеринга убедительных и высококачественных аватаров.

Кроме того, результаты сравнивались количественно и качественно с другими современными методами. Это сравнение показало, что новый подход, представленный здесь, дает более последовательные и правдоподобные текстуры лица, чем любой из альтернативных методов.

Заключение

Таким образом, предлагаемый подход делает возможным вывести карты отражательной способности и геометрии с высоким разрешением, используя одно неограниченное изображение. Мало того, что этих карт достаточно для рендеринга убедительных и реалистичных аватаров, их можно получить всего за несколько секунд, а не за несколько минут, как это требуется для альтернативных методов. Эти отличные результаты стали возможны во многом благодаря использованию высококачественных наземных 3D-сканирований и соответствующих входных изображений. Более того, техника переворота и конкатенации сверточных признаков, закодированных в скрытом пространстве модели, позволила выполнить завершение текстуры с сохранением естественной степени симметрии лица.

Тем не менее, предлагаемый подход имеет несколько ограничений, которые показаны на рисунке выше. Этот метод создает артефакты при наличии сильных теней и объектов вне кожи из-за ошибок сегментации. Кроме того, объемные бороды не воссоздаются точно, а сильные динамические морщины могут вызывать артефакты на предполагаемых картах смещения.

Тем не менее, эти ограничения не могли отрицать большой вклад, который предлагаемый подход вносит в проблему создания высокоточных аватаров для моделируемой среды.

Катерина Койдан