Сравнение потерь MSE и кросс-энтропии с точки зрения сходимости

Для очень простой задачи классификации, когда у меня есть целевой вектор [0,0,0, .... 0] и вектор прогнозирования [0,0.1,0.2, .... 1], кросс-энтропийные потери сходятся лучше / быстрее или будет потеря MSE? Когда я рисую их, мне кажется, что потеря MSE имеет меньшую погрешность. Почему это могло быть? введите описание изображения здесь

Или, например, когда у меня есть цель как [1,1,1,1 .... 1], я получаю следующее: введите описание изображения здесь


comment
Мой ответ на MSE vs cross_entopy будет полезно.   -  person vipin bansal    schedule 08.05.2019
comment
@vipinbansal, к сожалению, не будет   -  person iRestMyCaseYourHonor    schedule 26.03.2021


Ответы (2)


Вы немного сбиты с толку ...

  • Сравнение значений MSE и кросс-энтропийных потерь и утверждение, что одно из них ниже другого, похоже на сравнение яблок с апельсинами.
  • MSE предназначена для задач регрессии, а потеря кросс-энтропии - для задач классификации; эти контексты являются взаимоисключающими, поэтому сравнение числовых значений соответствующих им показателей потерь не имеет смысла.
  • Когда ваш вектор прогноза похож на [0,0.1,0.2,....1] (т.е. с нецелочисленными компонентами), как вы говорите, проблема заключается в регрессии (а не классификации); в настройках классификации мы обычно используем целевые векторы с горячим кодированием, где только один компонент равен 1, а остальные - 0
  • Целевой вектор [1,1,1,1....1] может иметь место либо в настройке регрессии, либо в многоклассовой классификации с несколькими метками, т.е. когда выходные данные могут принадлежать более чем одному классу одновременно.

Вдобавок к этому, ваш выбор графика с процентным соотношением (?) Прогнозов по горизонтальной оси вызывает недоумение - я никогда не видел таких графиков в диагностике машинного обучения, и я не совсем уверен, что именно они представляют и почему они могут быть полезный...

Если вам нравится подробное обсуждение потери кросс-энтропии и точности в настройках классификации, вы можете взглянуть на этот ответ.

person desertnaut    schedule 16.03.2018

В дополнение к принятому ответу я отвечу на следующие вопросы

  1. Какова интерпретация потерь MSE и перекрестной энтропии с точки зрения вероятности.
  2. Почему для классификации используется перекрестная энтропия, а для линейной регрессии - MSE?

TL; DR Использовать потерю MSE, если (случайная) целевая переменная получена из распределения Гаусса, и категориальная перекрестная потеря энтропии, если (случайная) целевая переменная - из полиномиального распределения.

MSE (среднеквадратичная ошибка)

Одно из предположений линейной регрессии - многовариантность нормальности. Из этого следует, что целевая переменная имеет нормальное распределение (более подробную информацию о предположениях линейной регрессии можно найти на здесь и здесь).

Гауссово распределение (нормальное распределение) со средним значением  eq2 и дисперсия  eq3  задается
 eq1
Часто в машинном обучении мы имеем дело с распределением со средним 0 и дисперсией 1 (или мы преобразуем наши данные, чтобы они имели среднее значение 0 и дисперсию 1). В этом случае нормальное распределение будет таким:
 eq4 Это называется стандартным нормальным распределением.
Для модели нормального распределения с параметром веса eq6 и параметр точности (обратная дисперсия) eq6, вероятность наблюдения одной цели t при вводе x равна выражается следующим уравнением

 eq , где  eq является средним значением распределения и рассчитывается моделью как
 eq

Теперь вероятность целевого вектора eqс учетом входных данных  eq можно выразить как

 eq   eq4
Принимая естественный логарифм левого и правого членов дает

 eq
 eq  eq
Где eq - логарифмическая вероятность нормальной функции. Часто обучение модели включает оптимизацию функции правдоподобия относительно eq. Теперь функция максимального правдоподобия для параметра eqзадается как (постоянные члены относительно < img src = "https://chart.googleapis.com/chart?cht=tx&chl=%5Cmathbf%7Bw%7D" alt = "eq"> можно опустить),

 eq

Для обучения модели без константы eqне t влияют на сходимость.  eq Это называется квадратичной ошибкой и взятием mean среднеквадратичной ошибки .
 eq ,

Перекрестная энтропия

Прежде чем перейти к более общей функции кросс-энтропии, я объясню конкретный тип кросс-энтропии - бинарную кросс-энтропию.

Бинарная кросс-энтропия

Предположение о бинарной кросс-энтропии - это распределение вероятностей целевой переменной, выведенное из распределения Бернулли. Согласно Википедии

Распределение Бернулли - это дискретное распределение вероятностей случайной величины, которая принимает значение 1 с вероятностью p и значение 0 с вероятностью q = 1-p.

Вероятность случайной величины распределения Бернулли определяется как
 eq , где eq и p - вероятность успеха. Это можно просто записать как eq
Получение отрицательного натурального логарифма обеих сторон дает

 eq , это называется бинарной кросс-энтропией.

Категориальная кросс-энтропия

Обобщение кросс-энтропии следует за общим случаем, когда случайная величина многовариантна (из мультиномиального распределения) со следующим распределением вероятностей

 eq

Отрицательный натуральный логарифм обеих частей дает категориальную кросс-энтропийную потерю.

 eq10 ,

Вывод

Перекрестная энтропия используется, когда целевая переменная из распределения Бернулли, и MSE используется, когда целевая переменная из нормального распределения.

person Mitiku    schedule 26.12.2018