Скай Ньюс: Лондон

Недавно я написал в своем посте Наивный Байес: Заболеваемость среди населения является критической переменной, которую многие люди упускают из виду.

Сегодня, просматривая новости, я наткнулся на статью Sky News и заметил, что они попали именно в эту ловушку.

Исследователи обнаружили, что противоречивая система на 81% неточна.

Появление подозреваемых в толпе – важная переменная, которую Sky News упустила из виду

Почему это? Давайте попробуем варьировать количество подозреваемых в толпе, чтобы понять, почему это так важно.

System 1: Randomly tosses a coin to assess guilt, accuses 50%
System 2: Error rate of 1 in 1,000
Crowd A: 32,000 suspects;      0 innocent people
Crowd B:      0 suspects; 32,000 innocent people

Какая система лучше?

System 1 on Crowd A - 16000 suspects;         100% accurate!
System 2 on Crowd B - 32 mistakes;            100% inaccurate!

Наличие подозреваемых в толпе имеет огромное значение. Sky News игнорирует состав толпы, измеряя только точность, поэтому с помощью этой методологии система 1 подбрасывает монету.

Итак, давайте попробуем перенести теорию из моего предыдущего поста о наивном байесовском подходе в этот реальный пример.

Сначала нам нужно начать с этой цитаты:

Они обнаружили, что из 42 совпадений только восемь были признаны правильными — уровень ошибок 81%. Четверо из 42 были людьми, которых так и не нашли, потому что они были поглощены толпой, поэтому совпадение не могло быть подтверждено.

Математика проста:

Но «Четверо из 42 были людьми, которых так и не нашли», так что я не знаю, почему их учитывают. Мы не знаем, были ли все четыре неправильными, правильными или какой-то смесью. Мне кажется, что эти примеры нужно отбросить, оставив нам 8 совпадений из 38 или 79% неверных, но я отвлекся.

Нам нужно больше подробностей о производительности системы. В статье мы можем найти оценку ошибки полиции 1 из 1000:

Силы поддерживают свою технологию только в одном из 1000 случаев, но они используют другое измерение, чтобы прийти к такому выводу.

Поскольку они процитировали одно число; ложноотрицательные/положительные результаты не выделяются, поэтому мы предполагаем, что они одинаковы для обоих. Теперь, каковы эти числа с точки зрения Байеса? Несмотря на мое несогласие, я буду использовать их 19% или 0,19:

TP = True Positive = 0.999
FP = False Negative = 0.001
            P(B ∣ A) P(A)
P(A ∣ B) =  ──────────────
                P(B)
A = Suspect
B = Positive Neoface match
P(A ∣ B) = Probability a person is a suspect given a match = 0.19
P(B ∣ A) = Probability of a match given a suspect = TP = 0.999
P(A) = Probability of a person in the crowd being a criminal
P(B) = Probability of a Neoface match = FP × (1-P(A)) + TP × P(A)

Подставляем формулу и значения, находим P(A) и вычисляем карандашом (точно не используя Wolfram Alpha), получаем:

Или ~1 из 4000. Является ли это разумной оценкой количества разыскиваемых подозреваемых в случайной толпе? Население Великобритании в тюрьмах составляет примерно 1 на 1000 человек. Таким образом, количество подозреваемых, известных полиции, находится на том же уровне, что и заключенные, но в 4 раза меньше. Кажется разумным.

Давайте проверим цифры для толпы из 32 000 человек, мы подсчитали, что 1 из 4000 является подозреваемым, и система (заявлено) на 99,9% надежна в их обнаружении. Итак, 8 из 8 подозреваемых обнаружены. Он также (заявлен) на 99,9% надежен при отклонении не подозреваемых, поэтому из 31 992 не подозреваемых 32 будут обнаружены ошибочно. Давайте расширим наши предыдущие примеры:

System 1: Randomly tosses a coin to assess guilt, accuses 50%
System 2: Error rate of 1 in 1,000
Crowd A: 32,000 suspects;      0 innocent people
Crowd B:      0 suspects; 32,000 innocent people
Crowd C:      8 suspects; 31,992 innocent people
System 1 on Crowd A - 16000 suspects;         100% accurate!
System 2 on Crowd B - 32 mistakes;            100% inaccurate!
System 2 on Crowd C - 8 suspects, 32 mistakes; 80% inaccurate!

Мы прошли полный круг и вернулись к числу заголовков, состоящему из 80% неточностей. Таким образом, одновременно могут быть верны следующие вещи:

  1. Система имеет ложноотрицательный и ложноположительный уровень 0,1%.
  2. В толпе из 32000 человек 32 из 40 или 80% будут отмечены ошибочно.

Вышеупомянутые две вещи могут быть правдой, если подозреваемые встречаются с частотой 1 из 4000 в случайной толпе.

Частота появления подозреваемых в толпе является важной переменной

Далее по статье мы находим следующее:

Метрополитен предпочитает измерять точность, сравнивая успешные и неудачные совпадения с общим количеством лиц, обработанных системой распознавания лиц. Согласно этому показателю, уровень ошибок составил всего 0,1%.

Что неудивительно и вполне разумно. Частота появления подозреваемых в случайных толпах в Лондоне, вероятно, чрезвычайно низка, и поэтому даже высокоэффективная система обнаружения лиц кажется плохо срабатывающей для тех, кто не знаком с теоремой Байеса.

Естественно, исследователи машинного обучения уже обнаружили эту проблему измерения производительности и решили ее с помощью сочетания показателей Точность, полнота и др., но показатель F1 дает нам хорошую единую метрику для работы:

           2TP                 2 × 0.999
 F1 =  ─────────────  =  ───────────────────────── = 0.999
       2TP + FP + FN     2 × 0.999 + 0.001 + 0.001

Максимально возможная оценка F1 равна 1, поэтому это высокопроизводительная система, но при попытке обнаружить иголку в стоге сена или подозреваемого в случайной толпе вы все равно можете ожидать много ложных срабатываний. Это сложная задача.

Я просмотрела полдюжины источников новостей, но обнаружила только одно и то же, без критического анализа.

Sky News Guardian ABC News Breitbart MIT Technology Review Зеркало