В дополнение к принятому ответу я отвечу на следующие вопросы
- Какова интерпретация потерь MSE и перекрестной энтропии с точки зрения вероятности.
- Почему для классификации используется перекрестная энтропия, а для линейной регрессии - MSE?
TL; DR Использовать потерю MSE, если (случайная) целевая переменная получена из распределения Гаусса, и категориальная перекрестная потеря энтропии, если (случайная) целевая переменная - из полиномиального распределения.
MSE (среднеквадратичная ошибка)
Одно из предположений линейной регрессии - многовариантность нормальности. Из этого следует, что целевая переменная имеет нормальное распределение (более подробную информацию о предположениях линейной регрессии можно найти на здесь и здесь).
Гауссово распределение (нормальное распределение) со средним значением и дисперсия задается
Часто в машинном обучении мы имеем дело с распределением со средним 0 и дисперсией 1 (или мы преобразуем наши данные, чтобы они имели среднее значение 0 и дисперсию 1). В этом случае нормальное распределение будет таким:
Это называется стандартным нормальным распределением.
Для модели нормального распределения с параметром веса и параметр точности (обратная дисперсия) , вероятность наблюдения одной цели t
при вводе x
равна выражается следующим уравнением
, где является средним значением распределения и рассчитывается моделью как
Теперь вероятность целевого вектора с учетом входных данных можно выразить как
Принимая естественный логарифм левого и правого членов дает
Где - логарифмическая вероятность нормальной функции. Часто обучение модели включает оптимизацию функции правдоподобия относительно . Теперь функция максимального правдоподобия для параметра задается как (постоянные члены относительно < img src = "https://chart.googleapis.com/chart?cht=tx&chl=%5Cmathbf%7Bw%7D" alt = "eq"> можно опустить),
Для обучения модели без константы не t влияют на сходимость. Это называется квадратичной ошибкой и взятием mean
среднеквадратичной ошибки .
,
Перекрестная энтропия
Прежде чем перейти к более общей функции кросс-энтропии, я объясню конкретный тип кросс-энтропии - бинарную кросс-энтропию.
Бинарная кросс-энтропия
Предположение о бинарной кросс-энтропии - это распределение вероятностей целевой переменной, выведенное из распределения Бернулли. Согласно Википедии
Распределение Бернулли - это дискретное распределение вероятностей случайной величины, которая принимает значение 1 с вероятностью p и значение 0 с вероятностью q = 1-p.
Вероятность случайной величины распределения Бернулли определяется как
, где и p - вероятность успеха. Это можно просто записать как
Получение отрицательного натурального логарифма обеих сторон дает
, это называется бинарной кросс-энтропией.
Категориальная кросс-энтропия
Обобщение кросс-энтропии следует за общим случаем, когда случайная величина многовариантна (из мультиномиального распределения) со следующим распределением вероятностей
Отрицательный натуральный логарифм обеих частей дает категориальную кросс-энтропийную потерю.
,
Вывод
Перекрестная энтропия используется, когда целевая переменная из распределения Бернулли, и MSE используется, когда целевая переменная из нормального распределения.
person
Mitiku
schedule
26.12.2018