TL; DR

Обнаружение объектов - относительно хорошо изученная задача в области машинного обучения. Однако, как и в любой другой области, последние исследования всегда основаны на множестве предыдущих исследований.
Эта статья нацелена на то, чтобы организовать каждое репрезентативное исследование по обнаружению объектов и отметить ключевые особенности, которые делают их репрезентативными.
Не стесняйтесь обращаться ко мне, если вы думаете, что есть другие важные исследования, о которых я не упомянул, или важные функции, которые я пропустил в конкретных исследованиях по ответам.

Модельный зоопарк

2014

R-CNN (Росс Гишик и др.)
SPPNet (Кайминг Хе и др.)

2015

Быстрый R-CNN (Росс Гишик и др.)
Более быстрый R-CNN (Рен и др.)

2016

YOLO (Redmon et al.)
SSD (Liu et al.)
YOLOv2 (Redmon et al. )

2017

Сеть пирамид функций (Цунг-И Линь и др.)
RetinaNet (Цун-И Линь и др.)

2018

YOLOv3 (Редмон и др.)

2019

Объект как точки (Синъи Чжоу и др.) ‹Скоро в продаже›
CornerNet (Хей Лоу и др.) ‹Скоро›
CenterNet (Кайвен Дуан и др.) ‹Скоро›
FCOS (Zhi Tian и др.)

2020

DETR (Николас Карион и др.) ‹Уже скоро›
YOLOv4 (Алексей Бочковский и др.) ‹Скоро скоро ›
EfficientDet (Mingxing Tan et al.) ‹ Скоро ›
YOLOv5 (Glenn Jocher) ‹Скоро в продаже›

R-CNN

Оригинальная бумага

Сначала извлеките предложение области, предложенное выборочным поиском, а затем деформируйте каждую предложенную область, чтобы исправить размер изображения и ввести в CNN. Обучите классификатор SVM и регрессионную модель Bounding box по функциям вывода CNN. Поскольку R-CNN вводит каждый регион в CNN, CNN необходимо вычислить ~ 2k (количество предложенных регионов) для отдельных изображений.

Выборочный поиск

Исходная бумага
Оценка возможной области для объектов путем непрерывной проверки аналогичной области.

SPPNet (сеть объединения пространственных пирамид)

Оригинальная бумага

Первоначально SPPNet стремился решить проблему, заключающуюся в том, что после предложения региона путем выборочного поиска в R-CNN предлагаемый регион потеряет свой размер и соотношение сторон из-за изменения размера. Вместо того, чтобы обрезать и изменять размер изображений перед вводом в CNN, SPPNet напрямую вводит целое изображение и использует слой объединения пространственных пирамид для извлечения и представления определенной области из изображений. Следовательно, CNN в SPPNet необходимо рассчитать только один раз для отдельных изображений.

Самый важный вывод в SPPNet заключается в том, что карты характеристик могут представлять исходные изображения, поэтому нет необходимости вносить предложение по региону перед вводом в CNN.

Быстрый R-CNN

Оригинальная бумага

Fast R-CNN использует концепцию SPPNet, создает уровень объединения областей интереса (RoI). Вместо обрезки и деформации областей перед вводом в CNN, быстрое R-CNN вводит изображение сразу и извлекает область из последнего слоя CNN. Из последнего слоя CNN, слой объединения RoI объединяет проекцию региона из исходного слоя и предсказывает классы из области извлечения.

Уровень пула RoI

RoI pooling объединение областей интереса путем проецирования исходных изображений. Подробнее читайте здесь: https://deepsense.ai/region-of-interest-pooling-explained/

Быстрее R-CNN

Оригинальная бумага

Вместо использования общих методов предложения по региону, таких как выборочный поиск, Faster R-CNN предложила сеть предложений по регионам (RPN) в качестве предложения по региону. RPN принимает привязки разных масштабов и соотношений сторон, а также использует регрессор для изменения ограничивающей рамки.

Сеть предложений региона

RPN проведите небольшую сеть по выходу карты функций свертки последним общим сверточным слоем. Для каждого скользящего окна RPN прогнозирует k якорных ящиков и проверяет, является ли это объектом или нет. RPN открывает эру обнаружения объектов на основе якорных ящиков.

ЙОЛО

Оригинальная бумага

YOLO - это первое однократное обнаружение объекта. Основная концепция YOLO состоит в том, что исходные изображения разбиваются на сетку n * n, и для каждой сетки есть k ограничивающих рамок, отвечающих за прогнозирование не более 1 объекта.
После проецирования области с карты объектов на исходное изображение, YOLO добавила полностью связанный слой как для классификации, так и для прогнозирования ограничивающей рамки. Таким образом, YOLO может классифицировать объекты по одной модели, которая запускает однократное обнаружение объекта.

SSD (обнаружение одиночного снимка)

SSD, безусловно, является важной вехой в области обнаружения объектов. В отличие от других предыдущих моделей, использующих 1 карту функций для прогнозирования, SSD начал извлечение нескольких слоев для прогнозирования. Посмотрев на различные карты функций, он может проверять объект в разных разрешениях.
Это множественное извлечение функций в основном применяется для всех более поздних моделей обнаружения объектов.

YOLOv2

Оригинальная бумага

YOLOv2 основан на структуре YOLO с некоторыми изменениями, показанными ниже:

  • Принята нормализация партии, удалено выпадение.
  • Классификация высокого разрешения путем изменения размера обучающего изображения с 256 * 256 на 448 * 448.
  • Методология якорных рамок заменяет исходную ограничивающую рамку с использованием 9 якорных рамок.
  • Кластеризация параметров. Соотношения сторон якорного блока больше не выбираются вручную, теперь он использует k-среднее для данных для заранее выбранного лучшего соотношения.
  • Прямое прогнозирование местоположения. Ограничьте значение предсказания якоря и добавьте линейную активацию, чтобы предотвратить нестабильную итерацию на ранней стадии.
  • Подробные функции. Перенести элементы раннего слоя (26 * 26) на более глубокий слой (13 * 13)
  • Многоуровневое обучение. Измените размер изображения в эпоху обучения, чтобы повысить надежность магистрали разного размера

FPN (Сеть пирамид функций)

Оригинальная бумага

Пирамида функций - это метод обмена семантической информацией от более глубоких карт функций до более мелких карт функций. Это будет делать прогнозы на более мелких картах признаков, чтобы иметь более сильные семантические особенности.

RetinaNet

Оригинальная бумага

RetinaNet представляет собой комбинацию сети пирамиды функций и новой функции потерь: Focal Loss. Достичь SoTA своего времени.

Потеря фокуса

Модели обнаружения на основе якорных ящиков имеют общие проблемы. После маркировки якорных ящиков размер выборки положительных ящиков (прямоугольник как объект) и отрицательных ящиков (прямоугольник как фон) чрезвычайно несбалансирован. Это связано с тем, что модели на основе якорных ящиков используют многочисленные предустановленные поля (например, ~ 9 КБ в SSD) для обнаружения объекта счетчика исправлений на всех изображениях. Несбалансированность выборки приводит к тому, что отрицательная выборка преобладает при обратном распространении и снижает скорость обучения и производительность.

Focal Loss разработал вес для настройки дисбаланса и усиливает положительное влияние образца на модель.

YOLOv3

Оригинальная бумага

YOLOv3 основан на YOLOv2 и внесены некоторые изменения, показанные ниже:

  • Добавьте логистическую регрессию для оценки объекта при прогнозировании ограничивающей рамки.
  • Измените классификатор softmax на логистический классификатор, поскольку предполагается, что изображение обычно включает несколько объектов вместо одного.
  • Извлеките карту нескольких объектов из модели, получите информацию с более высоким разрешением и включите прогнозирование в масштабе.
  • Нет больше DarkNet19 + ResNet, вместо этого используется новая магистраль DarkNet 53.

Объект как точки

Оригинальная бумага

CornerNet

Оригинальная бумага

CenterNet

Оригинальная бумага

FCOS

Оригинальная бумага

FCOS - это модели обнаружения объектов без привязки, которые используют сеть пирамид функций (FPN) для создания карт функций и добавления головы после каждой карты функций. В процессе обучения также используется новая функция потерь, называемая Центрированность, помимо потери классификации и потери ограничивающей рамки.

Центрированность

Это индекс подавления прогнозируемых ограничивающих рамок низкого качества, созданных в местах, удаленных от центра объекта. Центрированность - это индекс, описывающий расстояние от точки до центра поля истинности земли, и добавляемый как ветвь после карт объектов.



YOLOv4

Оригинальная бумага

EfficientDet

Оригинальная бумага

YOLOv5

"Оригинальная статья"