Сеть временного контекста для локализации активности в видео

В этом документе предлагается сеть временного контекста (TCN) для обнаружения активности. Основной вклад заключается в демонстрации того, что контекст активности повышает точность обнаружения активности. Подобно Faster R-CNN, конвейер разделен на три этапа: генерация предложений, классификация объектов и уточнение ограничивающей рамки. Прежде чем объяснять эти шаги, давайте сначала определим видеоактивность как видеосегмент между (b,e), где b и e обозначают начало и конец сегмента. Каждое действие содержит одно или несколько действий или событий; событие содержит несколько действий.

Для создания предложений необрезанное видео делится на M сегментов с 50% перекрытием, каждый из которых содержит L кадров. Для каждого сегмента создается K=20 предложений между (b,e), как показано на рисунке.

После генерации предложений требуется представление функций для ранжирования предложений. Необрезанные кадры видео отбираются со скоростью m = T * 2/fps, где T — количество кадров, fps — количество кадров в секунду, а 2 — гиперпараметр. Таким образом, вектор признаков видео F = {f_1,f_2,……,f_m}.

Используя вектор признаков видео F, вектор признаков предложения строится путем выборки n признаков кадра в сегменте предложения (b, e). Предложение представлено вектором признаков Z_{i,k} = {z_1,z_2,…….,z_n}, где i — индекс предложения, а k — временной масштаб.

Чтобы обнаружить активность, пара характеристик предложения Z_{i,k}, Z_{i,k+1} из двух последовательных шкал подается во временную CNN (TCN), как показано ниже.

После применения TCN векторы признаков предложений объединяются, а затем передаются на полносвязный уровень для вычисления потерь при обнаружении активности. Параллельно аналогичный конвейер классификации классифицирует деятельность. В отличие от конвейера обнаружения, для классификации активности используется только одно предложение. Этот рисунок суммирует всю нейронную сеть

Комментарии:

Сеть рассматривает временные предложения, но не пространственные предложения. Это, вероятно, мешает его способности обнаруживать действия в фоновом режиме.
Автор сказал, что проблема классификации является более сложной. Точность классификации сети меньше точности обнаружения. Эта сеть обрабатывает необрезанное видео, что, вероятно, и является причиной таких результатов.
Не знаете, почему предложение контекста не используется для классификации, аналогичной обнаружению? Основная идея этой статьи заключается в том, что контекст имеет значение.

Сеть временного контекста для локализации активности в видео

Похожие вопросы