Обзор «Надежных атак физического мира на модели машинного обучения»

Я прочитал отчет об исследовании, целью которого было создание надежного алгоритма, учитывающего различные условия. Ниже приводится отрывок из их статьи.

Аннотация. Известно, что классификаторы на основе глубоких нейронных сетей уязвимы для состязательных примеров, которые могут обмануть их и заставить неверно классифицировать вводимые данные путем добавления незначительных возмущений. Однако недавние исследования показали, что такие состязательные примеры не очень эффективны в физическом мире - они либо полностью не вызывают ошибочную классификацию, либо работают только в ограниченных случаях, когда относительно сложное изображение искажается и печатается на бумаге. В этой статье мы предлагаем новый алгоритм атаки - Robust Physical Perturbations (RP2) - который генерирует возмущения, принимая во внимание изображения в различных условиях. Наш алгоритм может создавать пространственно ограниченные возмущения, имитирующие вандализм или искусство, чтобы снизить вероятность обнаружения случайным наблюдателем. Мы показываем, что состязательные примеры, сгенерированные RP2, достигают высоких показателей успеха в различных условиях для распознавания реальных дорожных знаков, используя методологию оценки, которая фиксирует условия физического мира. Мы физически реализовали и оценили две атаки, одна из которых приводит к тому, что знак «Стоп» ошибочно классифицируется как знак ограничения скорости в 100% условий тестирования, а вторая приводит к тому, что знак «Правый поворот» ошибочно классифицируется как знак остановки или входа в добавленную полосу. 100% условий тестирования.

Они создали алгоритм, который, как они утверждают, делал следующее:

Знак "Стоп" ошибочно классифицируется как ограничение скорости в 100% тестовых случаев
Поворот направо ошибочно классифицируется как остановка или добавленная полоса в 100% случаев.

Тестовые изображения

На рисунке 1 я показываю изображения, которые я вырезал из статьи. Я пытался получить изображение с прямым обзором и перспективным видом. Эти изображения взяты прямо из статьи и никоим образом не изменялись.

Одна вещь, которая меня сначала поразила, это то, что изображение нападения на плакат при печати было очень темным и менее контрастным, чем другие изображения. Изображения для печати плакатов - это два изображения в крайнем правом углу. Когда я смотрел изображения в отдельных цветовых каналах R, G и B, причина отсутствия контраста стала очевидной. На рисунке 2 показаны отдельные каналы RGB для одного из изображений, напечатанных на плакате.

Единственное, что выделяется, это то, что большая часть изменчивости и потери контраста приходится на канал красного цвета. Тогда имеет смысл, что если модель DNN использует цвет, она потеряет много информации о знаке с потерей красного канала. Интересно посмотреть, как модели, преобразующие изображения в оттенки серого, будут обрабатывать это изображение. В документе показано, что это редактирование приводило к ошибочной классификации в 100% случаев при первом выборе. Однако в 8 из 15 проанализированных просмотров вторым классификационным выбором был знак остановки. Таким образом, даже несмотря на то, что правильная классификация была в топ-2, они решили посчитать это провалом, с которым я не согласен.

Результаты атаки

Таблица 1 показывает результаты классификатора для различных расстояний обзора, углов и атак для знаков остановки.

Следует отметить одну интересную вещь: сколько раз результат со знаком остановки оказывается в первых двух результатах. Это наводит меня на мысль, что эта атака не так надежна, как утверждают авторы. Кроме того, во всех случаях атаки с использованием маскировки / граффити знак «Стоп» был в первых двух местах, кроме одного. Следовательно, этой атаке не хватало устойчивости.

Первоначальные результаты тестирования

Я взял два обрезанных изображения из каждого из трех различных режимов атаки и пропустил их через шаги предварительной обработки и нормализации, а затем через мою обученную модель DNN. Модель была обучена на европейских наборах для обучения жестов, поэтому в обучающих данных не было никаких американских знаков или изображений атак. На рисунке 3 показаны результаты первоначального классификационного теста.

Как видно из трех основных предположений, атака по знаку «Любовь / Ненависть» была правильно идентифицирована для каждого из двух тестовых изображений и имела очень высокую достоверность. При атаке на печать плакатов каждое из двух изображений было неправильно классифицировано, и в трех первых предположениях не было знака «Стоп». Кроме того, процент уверенности был низким для первых двух предположений, что показывает, что у него не было высокой уверенности в этих предположениях. Атака с использованием искусства камуфляжа имела высокую степень достоверности для одного из изображений и 55% достоверности для другого. Несмотря на то, что они были неправильно классифицированы, знак «стоп» был в тройке первых предположений.

Новое обучение

Затем я хотел посмотреть, насколько устойчивой будет эта атака, если одно или два из этих изображений будут включены в обучающий набор. Я вырезал из бумаги два новых изображения атак с камуфляжным рисунком и добавил их в тестовый набор. Я взял изображения и обучающие наборы German Traffic Sign Benchmark, чтобы переобучить мою модель DNN. Я расширил обучающий набор, вращая, искажая перспективу и осветляя / затемняя случайные изображения. В этом наборе для каждого 10-го случайно выбранного изображения я взял одно из двух изображений атаки и применил те же возмущения, что и другие случайные изображения, и добавил эти новые изображения в обучающий набор. На рисунке 4 показаны классы и количество изображений в каждом наборе до и после процесса расширения. Класс знака «Стоп» был ID 14 и имел 690 изображений до и 1401 изображение после расширения набора данных. По моим оценкам, в обучающий набор было добавлено около 36 изображений атак.

Обучаемая нейронная сеть представляла собой модифицированную архитектуру LeNet, показанную на рисунке 5.

При обучении модели я использовал пакет размером 128 и 15 эпох. Я тренировался с Adam Optimizer со скоростью обучения 0,0015. Обучение для 15 эпох дало конечную точность обучения 99,7%, точность проверки 95,6% и точность набора тестов 94,1%.

Результаты тестирования с изображениями атак

После обучения новой модели я взял предыдущие тестовые изображения и прогнал их через новую модель. На рисунке 6 показан результат работы классификатора с новыми изображениями атак.

Как видно из рисунка, с новыми изображениями атак, включенными в модель, классификатор смог угадать правильный класс в 5 из 6 изображений. Также важно отметить, что тот, который он классифицировал неправильно, достоверность первого предположения низка, а третье предположение является правильным с оценкой 9%.

Выводы

Я думаю, что статья была очень вводящей в заблуждение, потому что они посмотрели только на первое предположение классификатора и сказали, что оно было неправильным, хотя второе было правильным. Кроме того, они смотрели только на то, как работает их обученный классификатор, но не решались на Waymo, Uber или другие, чтобы оценить свои классификаторы и надежность их метода. Результат их обученной классификации в 91% на тестовой выборке был низким, и их модель следовало улучшать до тех пор, пока не будет получен результат не менее 95%. Некоторые из лучших классификаторов в наборе тестов GTSRB находятся в перцентиле от верхних 98 до нижних 99 [2]. Еще одна проблема, с которой я столкнулся с их обучающим набором, заключается в том, что он был ограничен менее чем 500 изображениями для больших классов, а другие классы имели всего 92.

Другая серьезная проблема, которую я вижу, и результаты моего переобучения иллюстрируют, что, когда знаки остановки неправильно классифицируются из-за подделки, будущие результаты можно улучшить, включив эти изображения в обучающий набор. Как только это будет сделано и модель сможет обобщить эти новые признаки, способ атаки необходимо будет изменить. Это приводит меня к выводу, что их алгоритм атаки не так надежен, как они утверждают.

Эта и другие атаки на систему обзора автономных автомобилей могут иметь некоторую эффективность в реальных условиях эксплуатации. Тем не менее, автономные автомобили еще долго будут полагаться исключительно на зрение. Другие датчики, такие как гидролокатор или лидар, помогут автономным автомобилям ориентироваться и ощущать окружающий мир. Существует также SLAM, который определяет местонахождение автомобиля на карте, и поэтому у автономного автомобиля будут ограничения скорости, переходы и знак остановки, поэтому он не будет полностью зависеть от зрения.

Ссылки

[1] Надежные атаки физического мира на модели машинного обучения, https://arxiv.org/pdf/1707.08945.pdf

[2] Результаты из набора данных GTSRB: http://benchmark.ini.rub.de/?section=gtsrb&subsection=results

Обзор «Надежных атак физического мира на модели машинного обучения»

Похожие вопросы