Сравнение потерь MSE и кросс-энтропии с точки зрения сходимости

Для очень простой задачи классификации, когда у меня есть целевой вектор [0,0,0, .... 0] и вектор прогнозирования [0,0.1,0.2, .... 1], кросс-энтропийные потери сходятся лучше / быстрее или будет потеря MSE? Когда я рисую их, мне кажется, что потеря MSE имеет меньшую погрешность. Почему это могло быть?

Или, например, когда у меня есть цель как [1,1,1,1 .... 1], я получаю следующее:

ce1 16.03.2018 источник

comment

Мой ответ на MSE vs cross_entopy будет полезно. - vipin bansal 08.05.2019

comment

@vipinbansal, к сожалению, не будет - iRestMyCaseYourHonor 26.03.2021

Ответы (2)

arrow_upward
7
arrow_downward

Вы немного сбиты с толку ...

Сравнение значений MSE и кросс-энтропийных потерь и утверждение, что одно из них ниже другого, похоже на сравнение яблок с апельсинами.
MSE предназначена для задач регрессии, а потеря кросс-энтропии - для задач классификации; эти контексты являются взаимоисключающими, поэтому сравнение числовых значений соответствующих им показателей потерь не имеет смысла.
Когда ваш вектор прогноза похож на [0,0.1,0.2,....1] (т.е. с нецелочисленными компонентами), как вы говорите, проблема заключается в регрессии (а не классификации); в настройках классификации мы обычно используем целевые векторы с горячим кодированием, где только один компонент равен 1, а остальные - 0
Целевой вектор [1,1,1,1....1] может иметь место либо в настройке регрессии, либо в многоклассовой классификации с несколькими метками, т.е. когда выходные данные могут принадлежать более чем одному классу одновременно.

Вдобавок к этому, ваш выбор графика с процентным соотношением (?) Прогнозов по горизонтальной оси вызывает недоумение - я никогда не видел таких графиков в диагностике машинного обучения, и я не совсем уверен, что именно они представляют и почему они могут быть полезный...

Если вам нравится подробное обсуждение потери кросс-энтропии и точности в настройках классификации, вы можете взглянуть на этот ответ.

desertnaut 16.03.2018

arrow_upward
6
arrow_downward

В дополнение к принятому ответу я отвечу на следующие вопросы

Какова интерпретация потерь MSE и перекрестной энтропии с точки зрения вероятности.
Почему для классификации используется перекрестная энтропия, а для линейной регрессии - MSE?

TL; DR Использовать потерю MSE, если (случайная) целевая переменная получена из распределения Гаусса, и категориальная перекрестная потеря энтропии, если (случайная) целевая переменная - из полиномиального распределения.

MSE (среднеквадратичная ошибка)

Одно из предположений линейной регрессии - многовариантность нормальности. Из этого следует, что целевая переменная имеет нормальное распределение (более подробную информацию о предположениях линейной регрессии можно найти на здесь и здесь).

Гауссово распределение (нормальное распределение) со средним значением eq2 и дисперсия $\sigma^2$ задается
$\mathcal{N}(x|\mu,\sigma^2)=\frac% 7B1% 7D% 7B% 5Csqrt% 7B2% 5Cpi% 5Csigma% 5E% 7B2% 7D% 7D% 7De% 5E% 7B-% 5Cfrac% 7B (x-% 5Cmu)% 5E2% 7D% 7B2% 5Csigma% 5E2% 7D % 7D$
Часто в машинном обучении мы имеем дело с распределением со средним 0 и дисперсией 1 (или мы преобразуем наши данные, чтобы они имели среднее значение 0 и дисперсию 1). В этом случае нормальное распределение будет таким:
$\mathcal{N}(x|\mu=0,\sigma% 5E2 = 1) =% 5Cfrac% 7B1% 7D% 7B% 5Csqrt% 7B2% 5Cpi% 7D% 7De% 5E% 7B-% 5Cfrac% 7Bx% 5E2% 7D% 7B2% 7D% 7D$ Это называется стандартным нормальным распределением.
Для модели нормального распределения с параметром веса $\mathbf{w}$ и параметр точности (обратная дисперсия) $\beta$ , вероятность наблюдения одной цели t при вводе x равна выражается следующим уравнением

$\mathcal{p (t | x,% 5Cmathbf% 7Bw% 7D,% 5Cbeta) =% 5Cmathcal% 7BN% 7D (t | y (x,% 5Cmathbf% 7Bw% 7D),% 5Cbeta% 5E% 7B-1% 7D)$ , где является средним значением распределения и рассчитывается моделью как

Теперь вероятность целевого вектора $\mathbf{t}$ с учетом входных данных $\mathbf{X}$ можно выразить как

$p(\mathbf{t}|\mathbf{X},\mathbf{w},\beta)=\prod_ % 7Bn = 1% 7D% 5E% 7BN% 7D% 5Cmathcal% 7BN% 7D (t_n | y (x_n,% 5Cmathbf% 7Bw% 7D),% 5Cbeta% 5E% 7B-1% 7D) =$ $\prod_{n=1}^{N}\frac{\beta}{\sqrt% 7B2% 5Cpi% 7D% 7De% 5E% 7B-% 5Cbeta% 5Cfrac% 7B (t_n-y (x_n, w))% 5E2% 7D% 7B2% 7D% 7D$
Принимая естественный логарифм левого и правого членов дает

$\ln p(\mathbf{t}|\mathbf{X},\mathbf{w},\beta) =% 5Cln% 20% 5Cprod_% 7Bn = 1% 7D% 5E% 7BN% 7D% 5Cfrac% 7B% 5Cbeta% 7D% 7B% 5Csqrt% 7B2% 5Cpi% 7D% 7De% 5E% 7B-% 5Cbeta% 5Cfrac% 7B (t_n-y (x_n, w))% 5E2% 7D% 7B2% 7D% 7D$
$= -% 5Cfrac% 7B% 5Cbeta% 7D% 7B2% 7D% 5Csum_% 7Bn = 1% 7D% 5EN% 5Cleft% 7By (x_n, w) -t_n% 5Cright% 7D% 5E2% 2b% 5Cfrac% 7BN% 7D % 7B2% 7D% 5Cln% 5Cbeta-% 5Cfrac% 7BN% 7D% 7B2% 7D% 5Cln (2% 5Cpi) =$
Где $\ln L(\mathbf{w},\beta}|\mathbf{X},\mathbf{t})$ - логарифмическая вероятность нормальной функции. Часто обучение модели включает оптимизацию функции правдоподобия относительно $\mathbf{w}$ . Теперь функция максимального правдоподобия для параметра $\mathbf{w}$ задается как (постоянные члены относительно < img src = "https://chart.googleapis.com/chart?cht=tx&chl=%5Cmathbf%7Bw%7D" alt = "eq"> можно опустить),

$\ln L(\mathbf{w},\beta}|\mathbf{X},\mathbf{t% 7D) = -% 5Cfrac% 7B% 5Cbeta% 7D% 7B2% 7D% 5Csum_% 7Bn = 1% 7D% 5EN% 5Cleft% 7By (x_n, w) -t_n% 5Cright% 7D% 5E2$

Для обучения модели без константы $\frac{-\beta}{2}$ не t влияют на сходимость. $\ln L(\mathbf{w},\beta}|\mathbf{X},\mathbf{t% 7D) =% 5Csum_% 7Bn = 1% 7D% 5EN% 5Cleft% 7By (x_n, w) -t_n% 5Cright% 7D% 5E2$ Это называется квадратичной ошибкой и взятием mean среднеквадратичной ошибки .
$\frac{1}{N}\ln L(\mathbf{w},\beta% 7D |% 5Cmathbf% 7BX% 7D,% 5Cmathbf% 7Bt% 7D) =% 5Cfrac% 7B1% 7D% 7BN% 7D% 5Csum_% 7Bn = 1% 7D% 5EN% 5Cleft% 7By (x_n, w) -t_n% 5Cright % 7D% 5E2$ ,

Перекрестная энтропия

Прежде чем перейти к более общей функции кросс-энтропии, я объясню конкретный тип кросс-энтропии - бинарную кросс-энтропию.

Бинарная кросс-энтропия

Предположение о бинарной кросс-энтропии - это распределение вероятностей целевой переменной, выведенное из распределения Бернулли. Согласно Википедии

Распределение Бернулли - это дискретное распределение вероятностей случайной величины, которая принимает значение 1 с вероятностью p и значение 0 с вероятностью q = 1-p.

Вероятность случайной величины распределения Бернулли определяется как
$P(Y=k)=p^k(1-p)^ % 7B1-k% 7D$ , где $k\in\left{0,1\right}$ и p - вероятность успеха. Это можно просто записать как $P(y)=p^y(1-p)^{1-y}$
Получение отрицательного натурального логарифма обеих сторон дает

$-\ln P(y)=-y\ln(p)-(1-y)\ln(1-p )$ , это называется бинарной кросс-энтропией.

Категориальная кросс-энтропия

Обобщение кросс-энтропии следует за общим случаем, когда случайная величина многовариантна (из мультиномиального распределения) со следующим распределением вероятностей

$P(\mathbf{Y})=\prod_{n=1}^{N}p_n^{y_n% 7D (1-p_n)% 5E% 7B1-y_n% 7D =% 7Bp_n% 7D% 5E% 7B% 5Csum_% 7Bn = 1% 7D% 5E% 7BN% 7Dy_n% 7D (1-p_n)% 5E% 7Bn-% 5Csum_% 7Bn = 1% 7D% 5E% 7BN% 7Dy_n% 7D% 7D$

Отрицательный натуральный логарифм обеих частей дает категориальную кросс-энтропийную потерю.

$-\ln P(y)=-(\sum_{n=1}^{N}y_n\ln(p_n )% 2b (1-y_n)% 5Cln (1-p_n))$ ,

Вывод

Перекрестная энтропия используется, когда целевая переменная из распределения Бернулли, и MSE используется, когда целевая переменная из нормального распределения.

Mitiku 26.12.2018