Автор Чарльз Юань. Обзор статьи под названием «ControllerPose: съемка тела наизнанку с помощью камер VR Controller».

Введение

Виртуальная реальность, возможно, является наиболее эффективным методом бегства от реальности, доступным в настоящее время. Лично я провожу в виртуальной реальности (VR) больше времени, чем хотелось бы признать. Вы когда-нибудь играли в VRChat? Что ж, это отличное место, куда можно сбежать, когда ваше психическое здоровье падает сильнее, чем акции Меты. Справедливости ради стоит отметить, что виртуальные ноги в любом случае переоценены. Я, конечно, шучу, но это хорошее продолжение основной темы этой статьи: отслеживание всего тела!

Для тех, кто не знаком с концепцией или с технологиями виртуальной реальности в целом, существует два типа систем отслеживания, используемых в гарнитурах потребительского уровня. Первый из них известен как отслеживание снаружи-внутрь, при котором гарнитура и другие аксессуары отслеживаются внешним устройством. Это метод, используемый большинством традиционных гарнитур виртуальной реальности (например, Oculus Rift, HTC Vive, PS VR, Valve Index), хотя каждый из них имеет небольшие вариации [1]. Это также тот тип системы, который позволяет осуществлять отслеживание всего тела (т. е. отслеживание ваших ног, бедер и т. д.), поскольку базовые станции, расположенные в комнате, способны отслеживать только гарнитура и контроллеры, но и дополнительные аксессуары, прикрепленные к корпусу. Он также делает это с высокой степенью точности и очень низкой задержкой [1].

Второй тип известен как отслеживание наизнанку, при котором камеры, IMU и другие датчики, встроенные в гарнитуру и контроллеры, могут формировать систему позиционного отслеживания без необходимости использования внешних базовых станций. Как вы, наверное, догадываетесь, это обеспечивает большую мобильность и свободу передвижения, что впоследствии увеличивает погружение в виртуальную реальность. Проблема в том, что, имея только гарнитуру и два контроллера, системы виртуальной реальности, такие как Oculus (Meta) Quest 2, не способны отслеживать все тело, за исключением простой оценки положения. , и это действительно накладывает жесткие ограничения на погружение в виртуальную реальность [3]. Конечно, можно просто купить базовые станции и трекеры по отдельности, но это сведет на нет всю цель отслеживания наизнанку.

Фон и оборудование

К счастью, некоторые исследователи из группы Future Interfaces Group Университета Карнеги-Меллона предложили решение. Проще говоря, почему бы не интегрировать камеры в контроллеры виртуальной реальности? Виртуальные гарнитуры уже используют их, а сами контроллеры уже обладают независимыми батареями, вычислительными возможностями и беспроводной связью [3]. Проведя небольшое исследование захвата движения, авторы обнаружили, что пользователи держат руки перед собой примерно в 68,3% времени при игре в такие популярные игры, как Beat Saber, Superhot и Pistol Whip [ 3]. Впоследствии был создан новый конвейер, объединяющий виды с нескольких камер на контроллерах вместе, выполняющий оценку позы тела в 3D и использующий последующие данные для настройки модели человека для приложений конечного пользователя [3]. Другими словами, отслеживание всего тела наизнанку!

Конвейер ControllerPose

Для этого ControllerPose использует две беспроводные камеры, прикрепленные к каждому контроллеру, одну к верхнему кольцу, а другую к нижней части рукоятки. При разрешении 640x480 пикселей четыре необработанных канала камеры (ниже, B) сначала фильтруются для непригодных кадров (C), исправляются для искажения «рыбий глаз» с использованием API модели камеры «рыбий глаз» OpenCV (D), а затем цилиндрически проецируются для сохранения относительных пропорций тело пользователя (Е) [3]. Для тех, кто не знаком, искажение «рыбий глаз» используется в широкоугольных объективах для получения панорамных изображений за счет сильного визуального искажения и, следовательно, корректируется. Цилиндрическая проекция — это, по сути, процесс развертывания цилиндрической поверхности на плоскую плоскость, подобно тому, как создаются карты мира. Наконец, два изображения с каждого контроллера объединяются в вертикальную панораму (F), обеспечивающую поле обзора 185° по вертикали и 150° по горизонтали [3].

Используя эти выходные данные, конвейер оценки 3D-позиции извлекает оценки 2D-позы пользователя с версией 1.7.0 OpenPose[5]. Выходные данные состоят из 17 ключевых точек: голова, плечи (x2), локти (x2), руки (x2), туловище, середина бедра, таз (x2), колени (x2), лодыжки (x2) и ступни (x2). ) [3].

Используя эти ключевые точки из левого и правого потоков, создаются два скелета (два верхних изображения, G). Затем с помощью очень сложного процесса, включающего вычисление 136 векторов направления из 17 суставов для использования в качестве входных данных для нейронной сети с несколькими входами, наряду с еще большей постобработкой, создается окончательная поза в трехмерном декартовом пространстве.

Результаты и производительность

При таком сложном конвейере неудивительно, что полученная частота кадров составит 7,2 кадра в секунду [3]. Это получено из средней задержки ~297 миллисекунд, которую можно разбить на следующие компоненты:

  1. 75 мс для получения видеокадров в качестве входных данных
  2. 63 мс для развертки и компоновки изображения
  3. 128 мс для выполнения оценки позы тела
  4. 8 мс для накладных расходов нейронной сети
  5. 17 мс для Unity для рендеринга графики и запуска решателя IK

Хотя в настоящее время эта производительность невысока, особенно по сравнению с 60 FPS у Quest 2, авторы ожидают, что некоторые процессы будут исключены или глубоко оптимизированы при адаптации для коммерческих приложений [3]. Тем не менее, этот конвейер является доказательством того, что подобная система работает, и ее текущую производительность следует рассматривать как нижнюю границу частоты кадров [3].

Что касается точности системы, она по-прежнему не может сравниться с отслеживанием снаружи-внутри, выполняемым HTC Vive Pro, его маяками 2.0 и трекерами 2.0. В другой статье Bauer et al. было обнаружено, что отслеживание снаружи внутрь можно отслеживать на уровне миллиметров, в то время как система ControllerPose дает значительно более высокую среднюю ошибку трехмерного евклидова соединения 6,98 см [3][7]. Без учета точек бедра и туловища, непосредственно прикрепленных к бедру и имеющих малую степень погрешности, она увеличивается до 8,59 см [3].

Ограничения и будущие улучшения

Излишне говорить, что отслеживание всего тела наизнанку далеко не так точно и надежно, как отслеживание снаружи внутрь. В первую очередь это связано с тем, что отслеживание наизнанку опирается в первую очередь на подходы компьютерного зрения. Это означает, что, помимо отсутствия отслеживания на миллиметровом уровне, он также будет страдать от проблем, связанных с более низким разрешением встроенных камер, отсутствием хорошего освещения и окклюзией из-за мешковатой одежды или позиционирования контроллера [3].

Однако, по словам авторов, конвейер был способен обнаруживать множество различных поз в композитной камере. С чем он боролся, так это с фактической 3D-оценкой позы и обратной кинематической позицией, которые можно улучшить с помощью дальнейших исследований [3]. Что касается проблем с задержкой, функция отслеживания рук Quest 2 уже способна отслеживать 21 точку на каждой руке, всего 42 точки отслеживания. Чипсет Qualcomm Snapdragon XR2 в Quest 2 также обладает потрясающими возможностями искусственного интеллекта с аппаратным ускорением [3]. Все это говорит о том, что с дальнейшими исследованиями подходов к машинному обучению и компьютерному зрению вполне возможно добиться отслеживания всего тела наизнанку, поскольку аппаратная инфраструктура уже существует для его поддержки.

Заключение

Итак, какой вывод из всего этого? Во-первых, движения всего тела вполне можно отслеживать в виртуальной реальности, так почему же Метавселенная выглядит так? Очевидное объяснение заключается в том, что для автономных пользователей Quest отслеживание всего тела недоступно, если они не используют внешние системы на основе IMU, такие как HaritoraXили SlimeVR. . Тем не менее, поскольку проводятся исследования таких систем, как ControllerPose, все еще есть надежда, что Meta в конечном итоге выпустит автономную гарнитуру VR, способную отслеживать все тело. Если целью является усиление погружения, то перемещение ног в игре становится неизбежной необходимостью. Надеюсь, однажды мы все сможем танцевать, водить машину и заниматься кикбоксингом в виртуальной реальности с помощью отслеживания наизнанку.

Демонстрация отслеживания всего тела!

  1. 11pt Full Body Tracking, демо от ShanamoN_VR
  2. Алиби бегуна, короткометражный фильм ACMEJack
  3. Вождение в виртуальной реальности, Varneon’s Udon Vehicles
  4. Blade and Sorcery Full-Body, демо-версия боя от Kentypoo
  5. Сабля Ног, омотея
  6. Танцы в VR, KoizumiTV

Рекомендации

  1. Лэнгли Х. (3 мая 2017 г.).Наизнанку и снаружи внутрь: как работает VR-отслеживание и как оно изменится. Пригодно для использования. Получено с: https://www.wareable.com/vr/inside-out-vs-outside-in-vr-tracking-343
  2. Искатель острых ощущений. (2019, 22 сентября). Отслеживание ВСЕГО ТЕЛА в VRChat с помощью Vive Trackers — Учебное пособие. Youtube. Получено с: https://www.youtube.com/watch?v=yE5NGI3RLUY
  3. Ахуджа, К., Шен, В., Фанг, К.М., Риопель, Н., Конг, А., Харрисон, К. (2022, 28 апреля). OpenPose: 2D-оценка позы нескольких человек в реальном времени с использованием полей сходства деталей. Цифровая библиотека ACM. Получено с: https://dl.acm.org/doi/fullHtml/10.1145/3491102.3502105
  4. несумтой. (2016, 26 июня). Как настроить базовые станции Vive для синхронизации по кабелю, руководство Тома. Получено с: https://forums.tomsguide.com/faq/how-to-set-up-your-vive-base-stations-for-cabled-sync.111306/
  5. Цао, З., Идальго, Г., Саймон, Т., Вей, С., Шейх, Ю. (2019, 30 мая).OpenPose: 2D-оценка позы нескольких человек в реальном времени с использованием полей сходства частей. arXiv.org. Получено с: https://arxiv.org/abs/1812.08008
  6. Группа будущих интерфейсов. (2022, 27 апреля). ControllerPose: съемка тела изнутри наружу с помощью камер VR Controller. Youtube. Получено с: https://www.youtube.com/watch?v=5p_glarZOdU
  7. Бауэр, П., Линхарт, В., Йост, С. (2021, 25 февраля). Исследование точности определения положения системы виртуальной реальности. MDPI. Получено с: https://www.mdpi.com/1424-8220/21/5/1622