В алгоритмах машинного обучения могут возникать два основных типа ошибок: ошибка смещения и ошибка дисперсии. Эти ошибки связаны со способностью модели точно фиксировать основные закономерности в данных.

Что такое предвзятость?

Смещение относится к разнице между значениями, предсказанными моделью, и истинными значениями или истинностью основания. Он отражает тенденцию модели постоянно делать прогнозы, которые выше или ниже истинных значений.

Что такое высокая погрешность?

Высокое смещение возникает, когда модель чрезмерно упрощает проблему и делает сильные предположения, которые не учитывают сложность данных. Это представляет собой систематическую ошибку в предсказаниях модели. Модель с высоким смещением, как правило, не соответствует данным, что означает, что она не может уловить основные закономерности и плохо работает как с обучающими, так и с тестовыми данными. Обычно это приводит к более высокой ошибке на тренировочном наборе, а также на тестовом наборе.

Когда смещение велико, модель чрезмерно упрощает задачу, что приводит к недообучению. Давайте рассмотрим наш пример различения кошек и львов:

Давайте рассмотрим пример, чтобы понять ошибку смещения в контексте различия между кошками и львами. Представьте, что у нас есть модель, которая классифицирует животных на основе наличия меха. Эта модель предполагает, что все животные с мехом — Львы. Однако это предположение чрезмерно упрощает проблему и игнорирует другие важные характеристики, такие как размер, грива и среда обитания.

Теперь, если мы применим эту модель к набору данных, включающему как кошек, так и львов, мы, вероятно, обнаружим ошибку смещения. Модель будет постоянно ошибочно классифицировать кошек как львов и наоборот, потому что она фокусируется исключительно на наличии меха и игнорирует другие отличительные черты. Эта неправильная классификация является систематической ошибкой, известной как ошибка смещения.

В этом случае ошибка смещения возникает из-за слишком упрощенного предположения модели, не позволяющего ей отразить истинные различия между кошками и львами. Прогнозы модели постоянно отклоняются от фактических меток, что приводит к необъективным и неточным классификациям.

Высокая дисперсия:

«Высокая дисперсия» относится к ситуации, когда прогнозы модели сильно различаются или значительно колеблются при обучении на разных подмножествах данных. Это указывает на то, что модель очень чувствительна к конкретным обучающим данным и может плохо обобщаться на новые, невидимые данные.

Другими словами, когда модель имеет высокую дисперсию, она имеет тенденцию быть очень гибкой и сложной. Он пытается очень точно подогнать обучающие данные, вплоть до включения зашумленных или нерелевантных вариаций, которые могут существовать в данных.

Следствием такого поведения является то, что модель становится очень чувствительной к конкретным обучающим данным, которым она подвергалась. Он регулирует свои параметры, чтобы учесть даже мельчайшие детали и вариации, потенциально чрезмерно подчеркивая шум, присутствующий в данных.

Хотя это может привести к тому, что модель достигнет очень низкой ошибки обучения, проблема возникает, когда модель сталкивается с новыми, невидимыми данными. Из-за своей чувствительности к шуму в обучающих данных модель с высокой дисперсией может с трудом обобщать и делать точные прогнозы для этих новых случаев.

Чтобы проиллюстрировать высокую дисперсию, давайте рассмотрим пример с использованием модели дерева решений для классификации животных как кошек или львов на основе таких характеристик, как размер, среда обитания, грива и т. д., а также наличие гривы. Предположим, у нас есть дерево решений с очень большим количеством уровней или листьев, что позволяет запоминать обучающие примеры.

В этом случае модель может научиться очень точно различать кошек и львов в обучающих данных, включая все тонкости и шумы, характерные для обучающей выборки. Однако при представлении новых данных, таких как птица, модели может быть трудно сделать точные прогнозы. Он может неправильно классифицировать птицу как кошку или льва, даже если он не знает и не понимает птиц.

Компромисс отклонения от смещения

Компромисс между смещением и дисперсией вступает в игру, когда мы стремимся найти баланс между смещением и дисперсией. Мы хотим разработать модель, достаточно сложную, чтобы фиксировать истинные лежащие в основе закономерности (низкое смещение), но не слишком сложную, чтобы она перекрывала шум и боролась с новыми данными (низкая дисперсия). Достижение этого баланса требует тщательного рассмотрения сложности модели, размера набора данных и соответствующего выбора функций для обеспечения точных и обобщенных прогнозов.

Давайте рассмотрим математические формулы, которые разбивают общую ошибку на компоненты смещения и дисперсии.

Общая ошибка. Общая ошибка (TE) модели может быть представлена ​​как сумма квадрата смещения (B) и дисперсии (V):

TE = B² + V

где B — смещение, а V — дисперсия.

Смещение (B): смещение представляет собой среднюю разницу между предсказанными значениями модели и истинными значениями для разных обучающих наборов. Математически смещение можно рассчитать как:

B = E[f_hat(x)] — f(x)

Где:

  • E[f_hat(x)] представляет собой ожидаемое значение прогнозов, сделанных моделью на разных обучающих наборах.
  • f(x) представляет истинную базовую функцию, которую мы стремимся аппроксимировать.

Проще говоря, смещение измеряет, насколько прогнозы модели в среднем отклоняются от истинных значений.

Дисперсия (V). Дисперсия количественно определяет изменчивость или непоследовательность прогнозов модели при обучении на разных подмножествах данных. Математически дисперсию можно рассчитать как:

V = E[(f_шляпа(x) — E[f_шляпа(x)])²]

Где:

  • f_hat(x) представляет прогнозируемые значения модели.
  • E[f_hat(x)] представляет собой ожидаемое значение прогнозируемых значений для разных обучающих наборов.

Дисперсия измеряет, насколько различаются прогнозы модели при обучении на разных подмножествах данных.

Цель состоит в том, чтобы найти оптимальный уровень сложности, который минимизирует как смещение, так и дисперсию, что приводит к более низкой общей ошибке, которая называется компромиссом смещения дисперсии. Достижение этого баланса требует тщательного рассмотрения сложности модели, размера набора данных и соответствующих методов регуляризации.

Понимая разложение смещения на дисперсию, мы получаем представление о факторах, влияющих на общую ошибку модели, и можем принимать обоснованные решения для улучшения ее производительности.

Заключение

Компромисс между смещением и дисперсией является фундаментальной концепцией машинного обучения. Поиск правильного баланса между смещением и дисперсией имеет решающее значение для разработки моделей, которые хорошо обобщают новые, невидимые данные. Понимая этот компромисс и используя соответствующие методы, мы можем строить модели, которые фиксируют лежащие в основе модели, не подвергаясь чрезмерному влиянию шума или чрезмерного упрощения. Освоение компромисса между смещением и дисперсией позволяет нам создавать надежные модели машинного обучения.