Прежде чем мы узнаем, что такое матрица путаницы, важно понять, что единственная вещь, которая действительно озадачивает, — это то, почему она называется матрицей путаницы!?! Если вы мне доверяете, я обещаю, что покажу вам, что это совсем не запутанно, что это очень полезный инструмент и что на самом деле это простой инструмент с большой мощностью, который может дать вам полезную информацию о том, как работает ваша прогностическая модель. выполнение. Хитрость заключается в том, чтобы понять, для чего он нужен и что он вам говорит.

Что такое матрица путаницы?
Матрица путаницы — это инструмент оценки эффективности классификации машинного обучения. Это тип таблицы, которая позволяет вам увидеть, насколько хорошо модель классификации работает на наборе тестовых данных, для которых известны реальные значения. Матрица путаницы фраз проста, но язык вокруг нее может сбивать с толку. Этот подход объясняется в этой статье простым способом.

Пример матрицы путаницы: -

Матрица путаницы — это метод машинного обучения для расчета полноты, точности, точности и кривой AUC-ROC. Ниже приведен пример фраз True Positive, True Negative, False Negative и True Negative. Я рассмотрел пример IPL для лучшего понимания.

Истинный положительный результат:-

Вы запланировали что-то позитивное, и это сбылось.

Например, вы предсказали, что Ченнаи выиграет Кубок IPL, и Ченнаи выиграл.

Верно отрицательный:-

Когда вы предсказали отрицательный исход, и вы были правы.

Вы предсказывали, что Дели Сорвиголовы проиграют, и они проиграли.

Ложное срабатывание:-

Ваша догадка положительна, и она ложна.

Вы предсказывали, что RCB выиграет IPL, но этого не произошло.

Ложноотрицательный:-

Ваша догадка ложна, и результат также ложен.

Вы предсказывали, что индейцы Мумбаи проиграют, но они победили.

Чтобы лучше понять, что такое отзыв, точность, точность, давайте рассмотрим пример.
Давайте представим, что мы установили скрытую камеру на железнодорожной станции, и она записывает всех, кто проходит мимо. рамка. Наша миссия - выследить террористов. Мы использовали передовые методы компьютерного зрения, а также алгоритмы глубокого обучения. Теперь мы хотим оценить производительность в режиме реального времени. Предположим, что в день оценки через кадр прошли 100 человек. Мы также знаем, что только двое из этих лиц являются террористами, а остальные — обычные люди.

Мы видим, что наша система предсказала 90 человек как «нетеррористов» и 8 человек как «террористов» из типичных (нетеррористов) 98 человек. Точно так же алгоритм предсказал одного террориста как «террориста», а другого как «не террориста» из двух террористов.

Наша миссия состояла в том, чтобы правильно прогнозировать террористов. В результате мы оценили «обнаружение террористов» как положительное.

Итак, какие прогнозы самые точные?

Фактический террорист (количество = 1), спроецированный как террорист
Фактический нетеррорист (количество = 90), спроецированный как нетеррорист

Теперь, если вы посмотрите на ТОЧНОСТЬ, которая представляет собой отношение общего количества верных прогнозов к общему количеству прогнозов, вы увидите, что в приведенном выше примере точность составляет
(90+1)/100. = 0,91, что составляет 91 процент.

Давайте теперь посмотрим, что там говорится о recall.

Отношение правильно спрогнозированных положительных результатов к фактическим положительным результатам называется ВОССТАНОВИТЬ.

В вышеупомянутом сценарии было два террориста, но наша модель указывала, что террористом будет только один.

В результате отзыв будет 1/2 = 0,5, или 50%.

Отношение правильно спрогнозированных положительных результатов к общему количеству спрогнозированных положительных результатов называется ТОЧНОСТЬ. Хотя алгоритм определил девять человек как террористов, на самом деле террористом был только один из них.

В результате точность будет 1/9 = 0,1111 или 11,1%.

Как видите, мы оценили модель, используя три различных показателя. Но остается вопрос: какие меры мы должны использовать для оценки модели? Что из этого даст нам правильную оценку? давайте решим эту проблему

Давайте теперь рассмотрим логику варианта использования.

Давайте представим, что мы собираемся посмотреть на людей, которых наша модель предсказывает как «террористов». В приведенном выше сценарии модель предполагала, что девять человек будут помечены как «террористы». Однако только один из них был террористом. Это означает, что мы причинили ненужные страдания еще восьми людям. Это произошло из-за низкой точности модели.

Однако только один из каждых двух террористов был правильно предсказан нашим алгоритмом. Это означает, что мы сможем задержать только одного террориста. Это произошло из-за того, что значение отзыва было низким.

Однако, если вы посмотрите на точность, вы увидите, что она составляет 91 процент.

Если вы хотите использовать точность в качестве критерия оценки, это прибыльное число наверняка вас обманет. Однако в реальном мире мы беспричинно преследовали восемь человек, одновременно освобождая одного террориста.

Давайте представим, что мы настроили параметры нашей модели, чтобы правильно предвидеть обоих террористов. Мы разработали модель как можно более точную, чтобы она могла предсказывать большее количество людей как террористов. В результате мы сможем обнаруживать как террористов, так и нетеррористов, но мы также будем беспокоить больше людей, которые не являются террористами.

Это указывает на то, что когда мы стремимся улучшить память, мы теряем точность, и наоборот.

Итак, какие у нас есть варианты?

Мы должны принимать решение в зависимости от сложившейся ситуации. В случае вышеупомянутой проблемы можно раздражать нескольких человек в целях расследования. Однако крайне важно, чтобы ни один террорист не остался незамеченным.

Нам нужен максимальный отзыв с максимально возможной точностью.

В этом случае «максимально возможная точность» означает, что получение максимальной полноты при крайне низкой точности неприемлемо. Алгоритм бесполезен, если он предсказывает большое количество людей как «террористов», и мы заканчиваем проверку от 30% до 40% населения. Тогда эта модель бессмысленна.

Итак, вернемся к исходному вопросу: что должна делать идеальная модель?

Предположим, мы отслеживаем 10 миллионов человек в течение года. В течение всего года присутствовали два террориста. Каждый месяц наш алгоритм определяет одного человека как «террориста». Всего за год у нас было 12 террористов. Мы провели расследование и выяснили, что десять из них не были террористами. Мы отпускаем их после тщательного осмотра. Однако оба террориста были задержаны. Это означает, что мы беспокоим очень небольшое количество людей в течение года, всего десять, и мы захватываем всех террористов.

Источник изображения-https://www.shutterstock.com/image-vector/smart-young-man-student-thinking-understands-1126103216