Реалистичная реконструкция одежды, как известно, является сложной проблемой, и ее важность неоспорима во многих исследовательских работах и ​​приложениях, таких как точная оценка формы тела и позы в дикой природе (например, на основе наблюдений за одетыми людьми), реалистичный опыт AR / VR, фильмы, видео. игры, виртуальная примерка и т. д. В последние десятилетия моделирование на основе физики стало стандартом в индустрии кино и видеоигр, даже несмотря на то, что они требуют многочасового труда специалистов.

Facebook Research представляет новый подход под названием Глубокие морщины для создания точной и реалистичной деформации одежды на основе реальных данных. Он состоит из двух дополнительных модулей:

  • Статистическая модель извлекается из 3D-сканирования одетых людей в движении, на основе которых шаблоны одежды точно не жестко выровнены.
  • Мелкие геометрические детали добавляются к картам нормалей, созданным с использованием условно-состязательной сети, архитектура которой предназначена для обеспечения реализма и временной согласованности.

Цель состоит в том, чтобы восстановить все наблюдаемые геометрические детали. Предполагая, что мельчайшие детали фиксируются при разрешении пикселей изображения сенсора и реконструируются в 3D, все существующие геометрические детали затем могут быть закодированы на карте нормалей поверхности 3D-сканирования с более низким разрешением, как показано на рисунке ниже.

Деформация ткани моделируется путем изучения линейной модели подпространства, которая учитывает позу и форму тела. Однако наша модель основана на реальных данных. Эта стратегия обеспечивает компактное и реалистичное представление деформаций. Сначала мы вычисляем устойчивые нежесткие регистрации на основе шаблонов из последовательности 4D-сканирования, затем выводим статистическую модель деформации одежды и, наконец, регрессионную модель изучают для повторного нацеливания.

Подготовка данных

Сбор данных. Для каждого типа одежды последовательности 4D-сканирования захватываются со скоростью 60 кадров в секунду (например, 10,8 тыс. кадров в течение 3 минут) движущегося объекта, одетого в полный костюм с одним предмет одежды с цветными границами сверху. Каждый кадр состоит из трехмерной поверхностной сетки с примерно 200 тысячами вершин, дающих очень подробные складки на поверхности, но частично искаженные дырами и шумом. Кроме того, захват только одного предмета одежды предотвращает окклюзию, когда одежда обычно накладывается друг на друга (например, пояса), и предметы одежды можно свободно комбинировать друг с другом.

Регистрация. Шаблон одежды T определяется путем выбора подмножества человеческого шаблона с согласованной топологией. T должен содержать достаточно вершин для моделирования деформаций (например, 5 тысяч вершин для футболки). Затем шаблон одежды регистрируется в последовательности 4D-сканирования с использованием варианта
нежесткой ICP, основанной на деформации сетки.

Статистическая модель

Статистическая модель вычисляется с использованием линейного разложения подпространств с помощью PCA. Позы всех n зарегистрированных сеток извлекаются из модели путем нормализации позы с использованием обратного скиннинга. Каждая регистрация Ri может быть представлена ​​средней формой M и смещениями вершин oi, так что Ri = M + oi , где средняя форма M принадлежит R3 * v, получается путем усреднения положений вершин. Наконец, каждый Ri может быть компактно представлен функцией линейной наложения формы
B,

Прогнозирование позы и формы

Обучается прогнозная модель f, которая принимает в качестве входных данных позы суставов и выводит набор из k параметров формы (A). Это позволяет использовать мощные приложения, в которых деформации вызваны позой. Чтобы учесть динамику деформации, возникающую во время движения человека, модель также обучается с учетом скорости позы, ускорения и истории параметров формы.

Архитектура

Цель состоит в том, чтобы восстановить все наблюдаемые геометрические детали. Предполагая, что детали гнезда фиксируются с разрешением пикселей изображения сенсора и реконструируются в 3D, все существующие геометрические детали затем могут быть закодированы в карту нормалей поверхности 3D-сканирования с более низким разрешением. Для автоматического добавления мелких деталей к реконструированной одежде на лету предлагается генеративная состязательная сеть, использующая карты нормалей.

Предлагаемая сеть основана на условной генерирующей состязательной сети (cGAN), вдохновленной передачей изображений. В генеративной сети используются сверточная структура batchnorm-ReLu и U-Net, поскольку она передает всю информацию по сетевым уровням и сохраняет общую структуру изображения. Временная согласованность достигается за счет увеличения срока потери сети L1. Для создания убедительной анимации важно не только, чтобы каждый кадр выглядел реалистично, но и не происходило резких скачков при визуализации. Чтобы обеспечить плавный переход между последовательно сгенерированными изображениями во времени, мы вводим дополнительную потерю L (потерю) в цель GAN, которая штрафует расхождения между сгенерированными изображениями в момент t и ожидаемыми изображениями (из набора обучающих данных) в t - 1:

где L (данные) помогает создавать изображения, близкие к истинной в смысле L1 (для меньшего размытия). Термин временной согласованности L (temp) предназначен для фиксации глобальных перемещений складок по поверхности.

Сеть cGAN обучается на наборе данных из 9213 последовательных кадров. Первые 8000 изображений составляют набор обучающих данных, следующие 1000 изображений - набор тестовых данных, а оставшиеся 213 изображений - набор проверочных данных. Наборы для тестирования и проверки содержат позы и движения, которых не было в обучающем наборе. Автоматический кодировщик U-Net состоит из 2 x 8 слоев и 64 фильтров в каждом из первых сверточных слоев. Дискриминатор использует участки размером 70 x 70. Вес L (данные) установлен на 100, вес L (temp) равен 50, а вес GAN равен 1. Изображения имеют разрешение 256 x 256, хотя наши ранние эксперименты также показали многообещающие результаты на 512 х 512.

Результат

DeepWrinkles - это полностью управляемая данными структура для захвата и восстановления движущейся одежды на основе последовательностей 4D-сканирования. Оценки показывают, что высокочастотные детали могут быть добавлены к картам нормалей с низким разрешением с помощью условной состязательной нейронной сети. Временные потери также вводятся в цель GAN, которая сохраняет геометрическую согласованность во времени и показывает качественные и количественные оценки на различных наборах данных.

Изначально опубликовано на neurohive.io.