Недавно я написал в своем посте Наивный Байес: Заболеваемость среди населения является критической переменной, которую многие люди упускают из виду.
Сегодня, просматривая новости, я наткнулся на статью Sky News и заметил, что они попали именно в эту ловушку.
Исследователи обнаружили, что противоречивая система на 81% неточна.
Появление подозреваемых в толпе – важная переменная, которую Sky News упустила из виду
Почему это? Давайте попробуем варьировать количество подозреваемых в толпе, чтобы понять, почему это так важно.
System 1: Randomly tosses a coin to assess guilt, accuses 50% System 2: Error rate of 1 in 1,000 Crowd A: 32,000 suspects; 0 innocent people Crowd B: 0 suspects; 32,000 innocent people
Какая система лучше?
System 1 on Crowd A - 16000 suspects; 100% accurate! System 2 on Crowd B - 32 mistakes; 100% inaccurate!
Наличие подозреваемых в толпе имеет огромное значение. Sky News игнорирует состав толпы, измеряя только точность, поэтому с помощью этой методологии система 1 подбрасывает монету.
Итак, давайте попробуем перенести теорию из моего предыдущего поста о наивном байесовском подходе в этот реальный пример.
Сначала нам нужно начать с этой цитаты:
Они обнаружили, что из 42 совпадений только восемь были признаны правильными — уровень ошибок 81%. Четверо из 42 были людьми, которых так и не нашли, потому что они были поглощены толпой, поэтому совпадение не могло быть подтверждено.
Математика проста:
Но «Четверо из 42 были людьми, которых так и не нашли», так что я не знаю, почему их учитывают. Мы не знаем, были ли все четыре неправильными, правильными или какой-то смесью. Мне кажется, что эти примеры нужно отбросить, оставив нам 8 совпадений из 38 или 79% неверных, но я отвлекся.
Нам нужно больше подробностей о производительности системы. В статье мы можем найти оценку ошибки полиции 1 из 1000:
Силы поддерживают свою технологию только в одном из 1000 случаев, но они используют другое измерение, чтобы прийти к такому выводу.
Поскольку они процитировали одно число; ложноотрицательные/положительные результаты не выделяются, поэтому мы предполагаем, что они одинаковы для обоих. Теперь, каковы эти числа с точки зрения Байеса? Несмотря на мое несогласие, я буду использовать их 19% или 0,19:
TP = True Positive = 0.999 FP = False Negative = 0.001 P(B ∣ A) P(A) P(A ∣ B) = ────────────── P(B) A = Suspect B = Positive Neoface match P(A ∣ B) = Probability a person is a suspect given a match = 0.19 P(B ∣ A) = Probability of a match given a suspect = TP = 0.999 P(A) = Probability of a person in the crowd being a criminal P(B) = Probability of a Neoface match = FP × (1-P(A)) + TP × P(A)
Подставляем формулу и значения, находим P(A) и вычисляем карандашом (точно не используя Wolfram Alpha), получаем:
Или ~1 из 4000. Является ли это разумной оценкой количества разыскиваемых подозреваемых в случайной толпе? Население Великобритании в тюрьмах составляет примерно 1 на 1000 человек. Таким образом, количество подозреваемых, известных полиции, находится на том же уровне, что и заключенные, но в 4 раза меньше. Кажется разумным.
Давайте проверим цифры для толпы из 32 000 человек, мы подсчитали, что 1 из 4000 является подозреваемым, и система (заявлено) на 99,9% надежна в их обнаружении. Итак, 8 из 8 подозреваемых обнаружены. Он также (заявлен) на 99,9% надежен при отклонении не подозреваемых, поэтому из 31 992 не подозреваемых 32 будут обнаружены ошибочно. Давайте расширим наши предыдущие примеры:
System 1: Randomly tosses a coin to assess guilt, accuses 50% System 2: Error rate of 1 in 1,000 Crowd A: 32,000 suspects; 0 innocent people Crowd B: 0 suspects; 32,000 innocent people Crowd C: 8 suspects; 31,992 innocent people System 1 on Crowd A - 16000 suspects; 100% accurate! System 2 on Crowd B - 32 mistakes; 100% inaccurate! System 2 on Crowd C - 8 suspects, 32 mistakes; 80% inaccurate!
Мы прошли полный круг и вернулись к числу заголовков, состоящему из 80% неточностей. Таким образом, одновременно могут быть верны следующие вещи:
- Система имеет ложноотрицательный и ложноположительный уровень 0,1%.
- В толпе из 32000 человек 32 из 40 или 80% будут отмечены ошибочно.
Вышеупомянутые две вещи могут быть правдой, если подозреваемые встречаются с частотой 1 из 4000 в случайной толпе.
Частота появления подозреваемых в толпе является важной переменной
Далее по статье мы находим следующее:
Метрополитен предпочитает измерять точность, сравнивая успешные и неудачные совпадения с общим количеством лиц, обработанных системой распознавания лиц. Согласно этому показателю, уровень ошибок составил всего 0,1%.
Что неудивительно и вполне разумно. Частота появления подозреваемых в случайных толпах в Лондоне, вероятно, чрезвычайно низка, и поэтому даже высокоэффективная система обнаружения лиц кажется плохо срабатывающей для тех, кто не знаком с теоремой Байеса.
Естественно, исследователи машинного обучения уже обнаружили эту проблему измерения производительности и решили ее с помощью сочетания показателей Точность, полнота и др., но показатель F1 дает нам хорошую единую метрику для работы:
2TP 2 × 0.999 F1 = ───────────── = ───────────────────────── = 0.999 2TP + FP + FN 2 × 0.999 + 0.001 + 0.001
Максимально возможная оценка F1 равна 1, поэтому это высокопроизводительная система, но при попытке обнаружить иголку в стоге сена или подозреваемого в случайной толпе вы все равно можете ожидать много ложных срабатываний. Это сложная задача.
Я просмотрела полдюжины источников новостей, но обнаружила только одно и то же, без критического анализа.
Sky News Guardian ABC News Breitbart MIT Technology Review Зеркало