Технический документ: Улучшение системы распознавания лиц с помощью базовой модели глубокого обучения в качестве…

Распознавание лиц (FR) - это метод глубокого обучения, позволяющий идентифицировать или проверять личность по цифровому изображению или видео. Существует довольно много подходов, позволяющих идентифицировать лица, но мы хотели бы сосредоточиться на улучшении системы FR, заменив нашу традиционную метрику сходства интеллектуальной моделью в качестве обучающегося по сходству. Мы также оценим характеристики использования некоторых традиционных показателей сходства.

Распознавание лиц, проверка или кластеризация - все это способы сравнения лиц для разных целей. Эти цели различаются в зависимости от приложений, начиная от проверки посещаемости сотрудников и заканчивая криминалистической экспертизой. По сравнению с другими биометрическими характеристиками (такими как отпечаток пальца и радужная оболочка глаза) FR со временем изменился. Системы FR захватывают изображение без согласия пользователя и в дальнейшем используют его для приложений безопасности - возьмем, к примеру, системы наблюдения и проверки безопасности в аэропортах. Кроме того, компании, которые специализируются на создании систем виртуальной реальности, таких как VironIT и Oculus VR, используют FR для отслеживания лиц в своих приложениях.

Для нашего конвейера предварительно обученная модель Google FaceNet будет отвечать за создание своего рода числового вектора. FaceNet казался достаточным по сравнению с другими моделями, доступными сообществу, из-за его способности генерировать представления уникальных черт лица. Это результат большого набора данных, на котором он был обучен. Следует отметить, что мы сосредоточены на «улучшении показателя изучения сходства, а не на самом FaceNet». Кроме того, важной реализацией FaceNet, которую мы переняли, стал подход однократного обучения. В существующей модели FR, которая должна быть улучшена, для классификации используется традиционная метрика изучения подобия, поэтому для улучшения модели потребовался другой подход.

Введение

Биометрические параметры лица, например расстояние между глазами и положение кончика носа, у всех людей различаются. Поэтому эти уникальные особенности обычно используются для идентификации.

В течение последнего десятилетия проверка лица привлекала должное внимание исследователей, процесс включает в себя захват изображения лица и последующее одновременное сравнение изображения с ранее сделанным изображением или изображениями, хранящимися в базе данных. Распознавание лиц - это область исследований в области искусственного интеллекта с различными ограничениями, налагаемыми на интеллектуальную систему для распознавания лица, включая вариации позы головы, изменение светового эффекта, выражения лица, старение лиц, окклюзию из-за аксессуаров и т. Д. . Была проведена качественная исследовательская работа, чтобы исправить эти эффекты, и был достигнут значительный прогресс.

FaceNet как генератор встраивания

Модель FaceNet, предложенная Schroff et al, решает проблему проверки лиц. Он группирует изображения лиц и обучает их с помощью функции тройных потерь для расчета потерь. Пакет содержит изображения в виде положительных, отрицательных и якорных пар. При вычислении потерь функция минимизирует расстояние между якорем и позитивом, т. Е. Изображениями одной идентичности, и максимизирует расстояние между якорем и негативом, т. Е. Изображениями разных идентичностей. Он изучает одну глубокую CNN, а затем преобразует изображение лица во вложение. Вложение можно использовать для сравнения лиц тремя способами:

Проверка лица рассматривает два лица и решает, похожи они или нет. Подтверждение лица может быть выполнено путем вычисления метрики расстояния.
Распознавание лиц - это классификационная проблема для маркировки лица именем. Вектор внедрения может использоваться для обучения окончательных меток.
Кластеризация лиц группирует похожие лица вместе, точно так же, как фото-приложения группируют вместе фотографии одного и того же человека. Алгоритм кластеризации, такой как K-means, используется для группировки лиц.

Традиционные алгоритмы изучения подобия

Изучение подобия - это процесс обучения математической функции или метрики для измерения степени взаимосвязи между элементами. Он просто измеряет метрику для обоих наблюдаемых элементов, также известную как метрическое обучение. Следовательно, векторные вложения, созданные на основе нашей модели FaceNet, можно сравнивать друг с другом для проверки сходства.

Традиционные алгоритмы определения метрик изучения подобия могут быть:

Показатели сходства на основе расстояния - это Евклидово расстояние, Манхэттенское расстояние, расстояние Минковского и т. д. Основная идея, общая для этих показателей, заключается в том, что они используют среднее расстояние между элементами двух векторов в эксперименте.

Сходство на основе количества элементов метрики основано на объединении и пересечении множеств в сравнении. В метрике сходства Жаккара количество элементов используется для определения отношения между двумя векторами в эксперименте.

Метрики сходства на основе ориентации используют угол между двумя векторами в их соответствующих векторных пространствах. Примером является метрика подобия косинус, она вычисляет сходство путем измерения косинуса угла между двумя векторами.

Модель глубокого обучения как показатель изучения сходства

Необходимость повышения точности нашей модели побудила нас исследовать и экспериментировать с лучшими подходами, которые могли бы сделать нашу систему FR. Во-первых, мы рассмотрели возможность экспериментов с традиционными метриками изучения подобия, как обсуждалось ранее. Первоначально это казалось жизнеспособным, но результаты показали незначительные улучшения или их отсутствие по сравнению с нашей предыдущей реализацией. Реализации других показателей сходства было недостаточно для повышения точности модели.

Прежде чем принять решение об экспериментировании с моделью глубокого обучения, мы сначала рассмотрели использование моделей статистического машинного обучения, поддерживающей векторной машины (SVM) и модели логистической регрессии. Классификатор SVM из экспериментов оказался жизнеспособным подходом, когда обучающие данные состоят из длинных размерных массивов. Следовательно, он может служить этой цели, но с момента прорыва в моделях глубокого обучения они оказались лучше статистических моделей в отношении точности и производительности. Для более ясной картины предыдущий конвейер FR и улучшенный схематически представлены ниже.

Функция сравнения

Функция сравнения - это математическая функция, которая количественно определяет «метрику» между парами элементов в двух или более наборах. Это достигается с помощью каких-то математических вычислений. При выборе функции сравнения она должна удовлетворять следующим свойствам для всех x, y, z, принадлежащих набору:

Неотрицательность: f (x, y) ≥ 0
Идентичность различимого: f (x, y) = 0 ‹=› x = y
Симметрия: f (x, y) = f (y, x)
Неравенство треугольника: f (x, z) ≤ f (x, y) + f (y, z)

Ниже приведены экспериментальные результаты, проведенные для некоторых функций сравнения по отношению к нашей реализации. Обязательно обратите внимание, что эти результаты могут отличаться для разных проектов в зависимости от набора данных и реализации.

Ограничение данных

Некоторые из основных ограничений, с которыми сегодня сталкивается глубокое обучение, - это доступность данных. Для обучения нам потребовались пары изображений для каждого примера; большое количество похожих пар, принадлежащих к одному классу (т. е. "класс соответствия"), и несколько разнородных пар, принадлежащих другому классу (т. е. "не совпадающий" класс).

Решением было расширить доступный набор данных. Расширение данных оказалось полезным для решения проблем глубокого обучения сегодня в областях, где данных недостаточно. Доступны обширные методы, от использования сложных GANS до простого перевода изображений. Чтобы упростить задачу, мы применили процессы увеличения, начиная от добавления распределенного шума до переворачивания изображения. Фрагмент кода показан ниже:

Встроенный генератор и хранилище

Для эффективного процесса обучения исследователь должен принять решение о том, как обрабатывать сгенерированные данные. Данные могут быть сохранены для последующего доступа или обучены на ходу по мере их создания.

Чтобы сохранить сгенерированное вложение, формат хранения должен быть легким. Формат .npz представляет собой заархивированный архив файлов, названных в честь содержащихся в них переменных. Он сохраняет массивы NumPy в один файл в несжатом формате. С другой стороны, для обучения на ходу функция генератора дает выбранный объем встраивания, полученный из выбранной желаемой функции сравнения.

При построении сетевой архитектуры модели глубокого обучения учитывались входные параметры, логиты и метки. Мы реализовали ряд плотных слоев, обученных с помощью оптимизатора Adam и двоичной кросс-энтропии как функции потерь.

Наконец, модель keras «fit_generator» соответствует данным, полученным от партии к партии нашим генератором встраивания. Генератор работает параллельно модели для достижения лучших результатов. Для нашего генератора это позволяет нам в реальном времени выполнять увеличение данных на изображениях в системе параллельно с обучением модели, обрабатываемым графическим процессором.

Заключение и дальнейшая работа

В этой работе представлен обзор разработки усовершенствованной системы распознавания лиц с использованием модели глубокого обучения вместо традиционной метрики расстояния в качестве метрики обучения схожести. В будущем мы продолжим эту работу, чтобы увидеть возможность использования сети глубокого обучения, обученной с помощью потери триплетов, для генерации скалярного значения, на котором будет основываться наше решение.

Достаточно ли этой бумаги? Буду рад услышать ваше мнение, предложения и комментарии. Пожалуйста, оставьте их ниже. Спасибо.

Ссылки

Флориан Шрофф, Дмитрий Калениченко, Джеймс Филбин. FaceNet: унифицированное встраивание для распознавания лиц и кластеризации. 2015 г.

Янив Тайгман, Мин Ян, Марк'Аурелио Ранзато, Лиор Вольф. DeepFace: устранение пробелов в проверке лиц на уровне человека. 2014. 4

Раджалингаппа Шанмугамани. Глубокое обучение для компьютерного зрения: экспертные методы обучения продвинутых нейронных сетей с использованием TensorFlow и Keras. Packt Publishing Ltd, январь 2018 г.