Ложь за машинами FP

Парадокс FP на поле битвы с COVID-19 и киберугрозами

Давайте на минутку рассмотрим «следующий» заразный вирус. У вас нет симптомов, но вы все равно пробуете использовать домашний набор для тестирования, ожидая, что результат будет отрицательным. К вашему большому удивлению результат положительный! Информация, содержащаяся в пакете набора для тестирования, объясняет, что результаты теста почти на 100% точны, а частота ложных срабатываний близка к нулю. Если вы похожи на большинство людей, вы должны беспокоиться об этом и обратиться к врачу. Пытаясь развеять ваше беспокойство, врач объясняет, что даже при положительном результате теста вероятность того, что вы заболеете, составляет всего 3%. Как это возможно?

В этом блоге мы объясним это явление, известное как парадокс ложноположительных результатов.

Верно положительное или ложное беспокойство?

Давайте посмотрим на мирный и вымышленный остров Паникленд, расположенный посреди океана. Паникеландцы наслаждались относительной разобщенностью с внешним миром. Все было спокойно, пока однажды по острову не распространилась загадочная болезнь. У людей начали проявляться симптомы, которых раньше не было. Судя по симптомам, казалось, что настоящий инфекционный вирус COVID-19 попал в Panicland. Известно, что от этой болезни страдает одна десятая процента населения Паникленда (1 из 1000). Прибыли наборы для тестирования на COVID-19. Власти заявляют, что тест может обнаружить COVID-19 у 98% пациентов, а частота ложных срабатываний (FPR) составляет 3%. FPR - это шанс того, что тест на COVID-19 окажется положительным.

Panicland проводит тесты для всех своих 100 000 жителей. Один парень, назовем его мистером Страхом, дал положительный результат на COVID-19. Мистер Страх был напуган. Было ли это оправдано?

Большинство людей посмотрит на результат теста и поверит, что он полностью надежен, учитывая высокий уровень обнаружения и очень низкую частоту ложных срабатываний. Однако более важным показателем является то, что большинство людей игнорируют пространство выборки. Другими словами, какова вероятность явления, которое мы ищем? В данном случае - заражение COVID-19. Попробуем продемонстрировать это:

Каковы шансы, что тот, у кого положительный результат теста, действительно инфицирован? Здесь размер выборки или вероятность явления составляет 1/1000, что означает, что только 100 жителей из 100000 действительно заразятся. Обратите внимание, что из 3095 положительных результатов (98 + 2,997) только 98 верны, в то время как остальные относятся к FP, что означает, что шанс действительно заболеть составляет всего 98/3095 = 3,1%. У человека с положительным результатом теста шанс заболеть составляет всего 3,1%.

Если мы сделаем это упражнение на шаг дальше до крайности и предположим, что на всем острове есть только один реальный пациент, и повторим расчет, мы получим, что положительный результат означает лишь 0,03% вероятности того, что вы действительно больны!

«Когда широко распространено мнение о парадоксе, его больше не признают парадоксом».

Мейсон Кули

Парадокс ФП

Давайте подробнее рассмотрим, что здесь произошло. Как получается, что системы, которые считаются надежными, такие как тесты на заболевания, становятся почти бесполезными из-за ошибочного прогнозирования положительного результата для большой популяции?

«Отрицая научные принципы, можно поддерживать любой парадокс».

Галилео Галилей

Вы можете заметить одну вещь: явления, которые мы ищем, все еще редки (0,1% для нашего примера с COVID-19). Попытка предсказать редкие признаки в большой популяции с использованием системы без высокой достоверности приведет к большому количеству ложных срабатываний. Это заблуждение известно как парадокс FP, частный пример случая пренебрежения базовой ставкой, когда люди склонны игнорировать общую информацию и использовать только конкретную информацию, а не объединять их обе. Парадокс относится к случаю, когда ложноположительных прогнозов значительно больше, чем истинно положительных.

Например, если мы предположим, что COVID-19 не является незначительным явлением и около 30% жителей Panicland были инфицированы в данный момент времени, мы получим, что положительный результат указывает на 93% -ную вероятность фактического заражения, а не 3,1% у нас было раньше.

Когда вы обратитесь к врачу и опишете свои симптомы, он назначит вам обследование на те заболевания, которые, по их мнению, у вас могут быть. Они не будут заказывать анализы, не связанные с вашими симптомами, из-за цены и, что не менее важно, шанса на результат FP.

Итог:
Если тест не точен, при обнаружении редких явлений могут возникнуть проблемы.

Основная ошибка в предыдущих случаях заключалась в том, что мы искали более редкие случаи, чем частота FP системы, которую мы использовали. Это был тот случай, когда мы пытались обнаружить болезнь с вероятностью 0,1%, используя систему, которая страдала от 3% ложноположительных результатов.

Парадокс FP относится к случаям, когда ложноположительных результатов больше, чем истинно положительных. Чтобы избежать таких случаев, в отношении этих систем следует руководствоваться практическим правилом: требовать, чтобы:

где FPR - это частота ложных срабатываний системы, которую мы использовали для обнаружения, а P (A) - это реальная вероятность явления, которое мы пытаемся предсказать.

Мы закончим этот раздел описанием парадокса одного из самых надежных тестов - теста на беременность. Причина высокой точности этих тестов заключается в том, что они берутся не из случайной группы женщин, где истинные шансы забеременеть, вероятно, невелики, а у тех, кто подозревается в вынашивании плода, а это означает, что реальная вероятность забеременеть явление (беременные) нельзя не отметить. Только представьте себе случай, когда мы проведем этот тест на случайно выбранной популяции, включая мужчин и женщин. Сколько будет случаев ложных срабатываний в этом эксперименте?

Дилемма самопроверки на COVID-19

Быстрые домашние тесты на COVID-19 - основная стратегия разрыва цепи заражения. Некоторые страны планируют или уже предоставили всем школьникам и детским садам экспресс-тест на антиген до начала учебного года. Примеры тому можно найти в Израиле или во втором по величине школьном округе Лос-Анджелеса. Как мы видим, нужно быть очень осторожным при запуске теста с большим или равным количеству FP с вероятностью явления, которое мы ищем на больших популяциях.

Давайте взглянем на некоторые цифры, актуальные на момент написания этого блога (середина августа 2021 года). В Израиле в настоящее время в школах и детских садах обучается 2,3 миллиона учеников. В настоящее время количество подтвержденных случаев составляет 32 736 случаев. Доктор По оценкам Энтони Фаучи, 40% инфекций протекают бессимптомно , что означает, что фактическое число инфекций, включая непроверенные случаи, составляет около 55 000. То есть вероятность явления составляет около 0,6% среди всего населения. Аналогичные результаты были получены в системе образования Лос-Анджелеса, где 0,8% студентов и преподавателей дали положительный результат. В заявлении в местной прессе фармацевтической компании антиген утверждалось, что количество ложных срабатываний составляет всего 0,6%. Действительно, небольшое количество, но в настоящее время идентично распространению COVID-19 среди всего населения. Непосредственный результат: количество правильных положительных диагнозов будет примерно таким же, как количество ложных срабатываний, что означает примерно только 50% вероятность того, что вы инфицированы при положительном ответе.

Важно уточнить, что решение о проведении обширного исследования антигена среди студентов было принято экспертами и может быть наименее плохой альтернативой. Но это означает выявление большого числа здоровых людей как инфицированных и их изоляцию. Опять же, вероятно, все еще желательный вариант по сравнению с неидентификацией большого количества действительно инфицированных людей.

«Ну, путь парадоксов - это путь истины. Чтобы проверить Реальность, мы должны увидеть ее на канате. Когда истины превращаются в акробатов, мы можем судить о них ».
Оскар Уайльд, Картина Дориана Грея

Применяя то, что мы узнали: могу ли я доверять любой системе обнаружения киберугроз?

Кибератаки могут быть очень редким событием для всего населения или довольно частым явлением, в зависимости от конкретной области и феномена, который необходимо идентифицировать. Например, утечки данных довольно редки по сравнению со всеми транзакциями базы данных, в то время как атаки веб-приложений могут быть очень распространенными. Это означает, что чем выше частота FPR и ниже вероятность явлений безопасности, система будет генерировать большее количество ложных тревог по сравнению с количеством истинных случаев атаки.

Исследования показывают, что многие организации страдают от усталости от предупреждений, когда большинство событий определяется как ложные тревоги. Более того, другой опрос показывает, что 66% организаций сомневались в системах безопасности и игнорировали сигналы тревоги в результате предыдущих инцидентов FP. Только представьте, какую перегрузку (и разочарование) эта цифра оказывает на корпоративные команды SOC.

Подход Imperva

Один из животрепещущих вопросов при работе с FP в киберпространстве - это очень тонкий баланс между упущением реальной атаки (FN) и чрезмерным количеством ложных тревог (FP), что снижает надежность продукта с течением времени и его эффективность. . Однозначного ответа нет, и каждый случай уникален. Это во многом зависит от конкретного варианта использования, но есть набор инструментов, которые мы часто используем в процессе исследований и разработок. Этот подход также применим как общая схема для любой другой области.

Допустим, мы хотим создать классификатор, который идентифицирует HTTP-запросы, исходящие от плохих ботов к нашему веб-сайту.

Предварительно

Чтобы обезопасить себя от уравнения 1, мы должны оценить редкость явления, которое мы пытаемся найти. В этом случае атаки веб-приложений осуществляются плохими ботами. Согласно годовому отчету Imperva, на плохой бот-трафик приходится 25% всего трафика на все веб-сайты. Еще один способ дальнейшего анализа редкости явления - отнести веб-сайт к определенной отрасли (ссылка, стр. 18). Например, если мой веб-сайт является поставщиком финансовых услуг, мы можем оценить активность плохого трафика ботов в 18,9%.

Кроме того, мы увидели риск запуска тестов на больших популяциях, и поэтому нам придется фильтровать данные на основе предварительной информации. Уменьшение численности населения и нацеливание на него могут помочь нам повысить вероятность этого явления. В области медицины это было сделано с помощью списка симптомов, близости к проверенному пациенту или истории болезни. В нашем случае эквивалентом будет, например, история IP (нашего пациента) или устройства. Мы можем использовать такие инструменты, как IP-репутация, чтобы исследовать активность предыдущего пользователя и фильтровать только IP-адреса с подозрительным или ненормальным поведением, например, доступ из невидимой страны или к новому ресурсу.

Модель

При обучении модели и выборе ее гиперпараметров важно отметить метрику, которую вы хотите оптимизировать: вас больше интересует FP или FN. Вы можете использовать одну из существующих метрик или заранее заданную вашу метрику (например, результат FP будет в 5 раз хуже, чем атака, которая была пропущена).

Почта

Важно контролировать свою модель в производстве и повторно обучать ее, чтобы уменьшить FP. Кибератаки носят динамичный характер, поэтому вы должны держать глаза открытыми и поддерживать свою модель как можно более актуальной. Вы можете рассматривать его как эквивалент раннего обнаружения новых вариантов COVID-19. Другой важный подход - проверка полученных результатов экспертом. В медицинском мире вы, вероятно, проконсультируетесь с врачом. Здесь может пригодиться второй взгляд специалиста по кибербезопасности. Другой вариант - механизировать этот процесс, используя другую модель обнаружения FP, которая принимает контекст атаки.

Некоторые выводы

FP - это вызов. Что вы можете сделать по этому поводу?

Поймите, что небольшие ставки FP все еще могут быть очень большой проблемой. Совершенной системы не существует, и ошибок нельзя избежать. Но как только мы поймем, как каждая доля процента улучшения таких показателей, как FP, может быть значительной, мы поймем, что точность - это еще не все, и что нам нужно, чтобы показатель FP был как можно меньше.

Оставайся сфокусированным

Эмпирическое правило парадокса FP гласит, что невозможно диагностировать явление, вероятность которого ниже, чем FP процесса обнаружения. Поэтому проведение этих тестов в большом масштабе или на случайных выборках может иметь катастрофические последствия. Должны быть выполнены предварительная обработка и фильтрация. Вместо того, чтобы обрабатывать все свои данные, сначала попробуйте предварительно идентифицировать и запустить только подозрительную часть, данные, которые, как мы имеем основания полагать, представляют собой явления.

Экспертиза

Наконец, нельзя полагаться только на машины или какие-либо статистические системы, и часто требуется мнение экспертов. Как и в мире медицины, где нет замены мнению врача, так и в мире кибербезопасности требуется глубокое понимание аналитика или исследователя. Знание предметной области - ключ к успеху.

Сознавать

«Как замечательно, что мы встретились с парадоксом. Теперь у нас есть надежда на прогресс ».

Нильс Бор

Даже если сказанное выше звучит, возможно, тривиально, это половина пути к решению. Решение проблемы - это сначала признание того, что у вас есть проблема, и знание ее источников.

Как только явление обнаружено, мы можем видеть, что машинное обучение или любая другая статистическая система, какой бы точной она ни была, следует использовать с осторожностью и в соответствующих условиях, принимая во внимание вероятность явления, которое мы пытаемся устранить. find и данные, с которыми мы работаем.