Оценка F1 переоценена. Вместо этого используйте это!

Когда дело доходит до оценки производительности моделей машинного обучения, показатель F1 уже давно считается основным показателем. Однако я осмелюсь бросить вызов статус-кво и утверждать, что оценка Формулы-1 переоценена. В этой статье мы рассмотрим альтернативный показатель, заслуживающий большего внимания и признания: коэффициент корреляции Мэтьюза (MCC).

Приготовьтесь, пока мы анализируем результаты Формулы-1, раскрываем их ограничения и раскрываем скрытую жемчужину — MCC.

Результат Формулы-1: герой с недостатками

Ах, показатель F1 — показатель, который, кажется, на устах у каждого специалиста по машинному обучению. Оценка F1, рассчитанная путем гармонизации точности и полноты, призвана обеспечить баланс между ними. Но всегда ли он дает точные результаты? Давай выясним.

Точность, запоминаемость и гармоничное сочетание
Чтобы понять оценку Формулы-1, нам нужно сделать шаг назад и взглянуть на ее компоненты: точность и полноту. Точность измеряет количество правильно предсказанных положительных случаев из всех предсказанных положительных случаев. С другой стороны, функция «Вспомнить» количественно определяет, сколько положительных случаев было правильно идентифицировано из всех фактических положительных случаев. Оба показателя имеют свои преимущества, но смешивать их вместе не всегда лучшая идея.

Пример: когда показатель F1 падает
Рассмотрите гипотетический сценарий, в котором вы строите модель для обнаружения редкого заболевания. Предположим, у нас есть набор данных со следующей матрицей путаницы для задачи бинарной классификации:

В этом сценарии набор данных представляет собой медицинский тест на редкое заболевание, при котором существует лишь небольшое количество положительных случаев по сравнению с отрицательными случаями. Матрица путаницы предполагает, что модель имеет высокий уровень истинно отрицательных результатов (TN), но низкий уровень истинно положительных результатов (TP). Вот расчеты точности, отзыва и оценки F1:

Точность = TP/(TP+FP) = 25/(25+10) ≈ 0,714
Напомним = TP / (TP + FN) = 25 / (25 + 5) = 0,833
Оценка F1 = 2 * (Точность * Отзыв) / (Точность + Отзыв) ≈ 0,769

В этом случае оценка Формулы-1 составляет около 0,769, что может показаться разумным показателем. Однако низкое количество истинно положительных результатов вызывает беспокойство, особенно в контексте медицинской диагностики. Редкая природа заболевания означает, что даже небольшое количество пропущенных положительных случаев может иметь серьезные последствия в реальном мире.

Результат Формулы-1, ты действительно тот супергерой, которым мы тебя считали?

Представляем коэффициент корреляции Мэтьюза (MCC)

Среди ограничений рейтинга Формулы-1 тихий герой ждет своего часа, чтобы проявить себя: коэффициент корреляции Мэтьюза. Этот коэффициент, названный в честь своего создателя Брайана Мэтьюза, варьируется от -1 до +1, обеспечивая целостную оценку производительности модели. Он учитывает истинные положительные, истинные отрицательные, ложноположительные и ложноотрицательные результаты, объединенные в одно число. Разве это не впечатляет?

Формулирование MCC: Давайте разберем формулу MCC шаг за шагом:

Рассчитайте истинные положительные результаты (TP), истинные отрицательные результаты (TN), ложные положительные результаты (FP) и ложные отрицательные результаты (FN) на основе прогнозов вашей модели.
Используйте эти значения для вычисления числителя: (TP * TN) — (FP * FN).
Вычислите знаменатель: √((TP + FP) * (TP + FN) * (TN + FP) * (TN + FN)).
Разделите числитель на знаменатель, чтобы получить MCC.

MCC = (TP * TN - FP * FN) / sqrt((TP + FP) * (TP + FN) * (TN + FP) * (TN + FN))

Давайте возьмем тот же пример, что приведен выше, и посмотрим, чем MCC лучше, чем F1.

Используя значения из матрицы путаницы:

TP = 25
TN = 9000
FP = 10
FN = 5

Подставив эти значения в формулу MCC:

MCC = (25 * 9000 - 10 * 5) / sqrt((25 + 10) * (25 + 5) * (9000 + 10) * (9000 + 5))
MCC ≈ 0.517

Значение MCC составляет примерно 0,517.

Коэффициент корреляции Мэтьюза учитывает все четыре элемента матрицы путаницы и учитывает баланс между истинно положительными, истинно отрицательными, ложноположительными и ложноотрицательными результатами. В отличие от оценки F1, MCC учитывает относительные размеры различных классов в наборе данных и подходит для несбалансированных наборов данных или ситуаций, когда последствия ложноположительных и ложноотрицательных результатов не равны.

Прощаясь с рейтингом Формулы-1, давайте признаем его достоинства как отправную точку для оценки. Однако в постоянно развивающемся мире машинного обучения мы должны использовать альтернативы, которые могут лучше отражать нюансы производительности наших моделей. Коэффициент корреляции Мэтьюза (MCC) представляет собой всеобъемлющий показатель, учитывающий несбалансированные наборы данных и учитывающий все возможные результаты. Итак, давайте отложим наши очки Формулы-1 и дадим MCC признание, которого он действительно заслуживает.

Больше контента на PlainEnglish.io. Подпишитесь на нашу бесплатную еженедельную рассылку. Следите за нами в Twitter, LinkedIn, YouTube и Discord. Интересуетесь Взлом роста? Посмотрите Цепь.

Рассмотрите возможность подписки на уведомления по электронной почте, чтобы получать большеорешекна свой почтовый ящик. Ура!

Оценка F1 переоценена. Вместо этого используйте это!

Результат Формулы-1: герой с недостатками

Представляем коэффициент корреляции Мэтьюза (MCC)

Похожие вопросы