1. Усиление локализации временных действий со слабым контролем с помощью текстовой информации (arXiv)

Автор: Гочжан Ли, Дэ Чэн, Синьпэн Дин, Наннань Ван, Сяоюй Ван, Синьбо Гао.

Аннотация: из-за отсутствия временной аннотации текущие методы временной локализации действия со слабым наблюдением (WTAL) обычно застревают в чрезмерно полной или неполной локализации. В этой статье мы стремимся использовать текстовую информацию для повышения WTAL с двух сторон, а именно: (а) дискриминационная цель увеличить разницу между классами, тем самым уменьшив переполнение; (б) порождающая цель повысить внутриклассовую целостность, тем самым найдя более полные временные границы. Для различительной цели мы предлагаем механизм анализа текстовых сегментов (TSM), который строит текстовое описание на основе метки класса действий и рассматривает текст как запрос для извлечения всех сегментов, связанных с классом. Без временной аннотации действий TSM сравнивает текстовый запрос со всеми видео в наборе данных, чтобы найти наиболее подходящие сегменты, игнорируя нерелевантные. Из-за общих поддействий в разных категориях видео простое применение TSM слишком строго, чтобы игнорировать сегменты, связанные с семантикой, что приводит к неполной локализации. Далее мы представляем генеративную задачу под названием Завершение языка видеотекста (VLC), которая фокусируется на всех семантических сегментах видео для завершения текстового предложения. Мы достигаем высочайшей производительности на THUMOS14 и ActivityNet1.3. Удивительно, но мы также обнаружили, что предлагаемый нами метод можно легко применить к существующим методам и улучшить их характеристики с явным преимуществом. Код доступен на https://github.com/lgzlIlIlI/Boosting-WTAL

2. Локализация временного действия со слабым контролем и двунаправленным ограничением семантической согласованности (arXiv)

Автор: Гочжан Ли, Де Чэн, Синьпэн Дин, Наннань Ван, Цзе Ли, Синьбо Гао.

Аннотация: Слабо контролируемая временная локализация действий (WTAL) направлена ​​​​на классификацию и локализацию временных границ действий для видео с учетом только меток категорий уровня видео в обучающих наборах данных. Из-за отсутствия граничной информации во время обучения существующие подходы формулируют WTAL как проблему классификации, то есть создание карты активации временного класса (T-CAM) для локализации. Однако только с потерей классификации модель будет частично оптимизирована, т. Е. Сцен, связанных с действием, достаточно, чтобы различать метки разных классов. Что касается других действий в связанной с действием сцене (т. е. сцены, такой же, как и положительные действия) как действий на совместной сцене, эта субоптимизированная модель ошибочно классифицирует действия на совместной сцене как положительные действия. Чтобы устранить эту неправильную классификацию, мы предлагаем простой, но эффективный метод, названный ограничением двунаправленной семантической согласованности (Bi-SCC), чтобы отличать положительные действия от действий на одной сцене. Предлагаемый Bi-SCC сначала использует расширение временного контекста для создания дополненного видео, которое нарушает корреляцию между положительными действиями и их действиями на одной сцене в межвидео; Затем используется ограничение семантической согласованности (SCC), чтобы обеспечить согласованность прогнозов исходного видео и дополненного видео, тем самым подавляя действия на одной сцене. Однако мы обнаруживаем, что это дополненное видео разрушило бы исходный временной контекст. Простое применение ограничения согласованности повлияет на полноту локализованных положительных действий. Следовательно, мы усиливаем SCC двунаправленным образом, чтобы подавить действия на одной сцене, обеспечивая при этом целостность положительных действий, перекрестно контролируя исходные и дополненные видео. Наконец, предлагаемый нами Bi-SCC можно применить к текущим подходам WTAL и улучшить их характеристики. Экспериментальные результаты показывают, что наш подход превосходит современные методы на THUMOS14 и ActivityNet.