Часть 2: Функции потерь регрессии.

Функции потерь регрессии используются для задач регрессии, целью которых является прогнозирование непрерывного значения.

Среднеквадратическая ошибка (MSE):

Он измеряет среднее значение квадрата разницы между фактическими и прогнозируемыми значениями.

Другими словами, его можно определить как среднее значение квадрата остатков для всех точек данных в наборе данных. Остатки — это разница между фактическим и прогнозируемым прогнозом модели.

Среднеквадратическую ошибку (MSE) также называют потерями L2.

Различия в среднеквадратической ошибке (MSE) возводятся в квадрат по двум основным причинам:

1. Квадратирование остатков выполняется для преобразования отрицательных значений в положительные значения. Нормальная ошибка может быть как отрицательной, так и положительной. Если суммировать некоторые положительные и отрицательные числа, сумма может быть равна 0. Это сообщит модели, что чистая ошибка равна 0 и модель работает хорошо, но, напротив, модель по-прежнему работает плохо.

2. Возведение в квадрат также придает больший вес более крупным ошибкам. Например, ошибка прогноза в 3 единицы считается в 9 раз хуже, чем ошибка прогноза в 1 единицу при использовании MSE. Когда функция стоимости находится далеко от своего минимального значения, возведение ошибки в квадрат приведет к большему наказанию модели и, таким образом, поможет быстрее достичь минимального значения.

Плюсы:

  1. Выпуклость: MSE — выпуклая функция, что означает, что она имеет один глобальный минимум. Это упрощает оптимизацию по сравнению с другими функциями потерь, которые могут иметь несколько локальных минимумов.
  2. Непрерывная и дифференцируемая: MSE — это непрерывная и дифференцируемая функция, что означает, что она хорошо подходит для использования с алгоритмами оптимизации на основе градиента, такими как градиентный спуск.

Минусы:

1. Чувствительность к выбросам: MSE чувствителен к выбросам в данных. Это означает, что одна большая ошибка может сильно повлиять на общие потери, поскольку остатки возводятся в квадрат.

2. Неустойчивость к ненормальному распределению: MSE предполагает, что ошибки распределены нормально, что может быть не так в некоторых реальных приложениях. В таких случаях MSE может оказаться не лучшей функцией потерь.

Идеальное значение MSE равно нулю. чем ближе значение к нулю, тем лучше работает модель.

Средняя абсолютная ошибка (MAE):

Он вычисляет среднее значение абсолютной разницы между фактическими и прогнозируемыми значениями.

Средняя абсолютная ошибка (MAE), также называемая потерей L1.

В средней абсолютной ошибке (MAE) вместо квадратичной разницы, как в среднеквадратической ошибке (MSE), берется абсолютное значение разницы между истинными и прогнозируемыми значениями, потому что:

1. Абсолютное значение различий является более надежным показателем ошибок. Абсолютное значение разностей придает одинаковый вес как положительным, так и отрицательным ошибкам, тогда как квадратичные разности придают больший вес более крупным ошибкам.

2. Использование абсолютного значения разностей средней абсолютной ошибки (MAE) делает ее более устойчивой к выбросам по сравнению со среднеквадратической ошибкой (MSE).

MAE, как правило, менее предпочтителен, чем MSE, поскольку труднее вычислить производную абсолютной функции, поскольку абсолютная функция не дифференцируема в минимумах. Когда ошибка приближается к 0, оптимизация градиентного спуска не будет работать, поскольку производная функции в 0 не определена (что приведет к ошибке, поскольку невозможно разделить на 0).

Идеальное значение MAE равно нулю. чем ближе значение к нулю, тем лучше работает модель.

Средняя абсолютная ошибка (MAE), также называемая потерей L1.

В средней абсолютной ошибке (MAE) вместо квадратичной разницы, как в среднеквадратической ошибке (MSE), берется абсолютное значение разницы между истинными и прогнозируемыми значениями, потому что:

1. Абсолютное значение различий является более надежным показателем ошибок. Абсолютное значение разностей придает одинаковый вес как положительным, так и отрицательным ошибкам, тогда как квадратичные разности придают больший вес более крупным ошибкам.

2. Использование абсолютного значения разностей средней абсолютной ошибки (MAE) делает ее более устойчивой к выбросам по сравнению со среднеквадратической ошибкой (MSE).

MAE, как правило, менее предпочтителен, чем MSE, поскольку труднее вычислить производную абсолютной функции, поскольку абсолютная функция не дифференцируема в минимумах. Когда ошибка приближается к 0, оптимизация градиентного спуска не будет работать, поскольку производная функции в 0 не определена (что приведет к ошибке, поскольку невозможно разделить на 0).

Идеальное значение MAE равно нулю. чем ближе значение к нулю, тем лучше работает модель.

Хубер Потеря:

Если абсолютная разница между фактическим и прогнозируемым значением меньше или равна пороговому значению 𝛿, то применяется MSE. В противном случае, если ошибка достаточно велика, применяется MAE. Проще говоря, вышеизложенное радикально говорит: для значений потерь меньше (𝛿) дельты используйте MSE; для значений потерь, превышающих дельту, используйте MAE. Таким образом, потеря Хубера обеспечивает лучшее от MAE и MSE.

Здесь дельта — это гиперпараметр, определяющий точку перехода между режимами среднеквадратической ошибки (MSE) и средней абсолютной ошибки (MAE).

Большее значение дельты сделает функцию потерь более устойчивой к выбросам. Это может быть полезно в ситуациях, когда в данных имеется высокая степень ошибки измерения или шума. С другой стороны, меньшее значение дельты сделает функцию потерь более чувствительной к большим ошибкам, что может быть полезно, когда важно минимизировать влияние больших выбросов.

На графике показано значение потерь по вертикальной оси и значение ошибки по горизонтальной оси. Для небольших ошибок значение потерь увеличивается квадратично, что представляет собой MSE. При больших ошибках значение потерь увеличивается линейно, что соответствует MAE. Хубер Лосс переключается между двумя режимами в дельте.

Идеальное значение потерь Хаббера равно нулю. чем ближе значение к нулю, тем лучше работает модель.

Заключительное примечание. Спасибо за внимание! Надеюсь, вы найдете эту статью информативной.

Когда вы готовитесь перевернуть страницу к следующей главе: Раскрытые функции потерь | Часть 3: Функции классификационных потерь, «Я призываю вас оставаться стойкими в своем стремлении к знаниям. Мир глубокого обучения — это царство бесконечных открытий, и вместе мы открываем его слои, по одному открытию за раз.

Оставайтесь с нами, и пусть исследования продолжаются!