Функция стоимости MSE для обучения нейронной сети

В онлайн-учебнике по нейронным сетям и глубокому обучению автор иллюстрирует основы нейронных сетей с точки зрения минимизации квадратичная функция стоимости, которая, по его словам, является синонимом среднеквадратической ошибки. Однако меня смущают две вещи в этой функции (псевдокод ниже).

MSE≡(1/2n)*∑‖y_true-y_pred‖^2

  1. Вместо того, чтобы делить сумму квадратов ошибок на количество обучающих примеров n, почему она делится на 2n? Как это может означать что-либо?
  2. Почему вместо круглых скобок используется двойная черта? Это заставило меня подумать, что происходит какой-то другой расчет, например, L2-нормы, который явно не показан. Я подозреваю, что это не так, и этот термин предназначен для выражения старой простой суммы квадратов ошибок. Хотя супер запутанно.

Любое понимание, которое вы можете предложить, очень ценится!


person jklaus    schedule 18.05.2017    source источник


Ответы (3)


Коэффициент 0,5, на который умножается функция стоимости, не важен. На самом деле вы можете умножить его на любую реальную константу, какую захотите, и обучение будет таким же. Он используется только для того, чтобы производная функции стоимости по выходу была просто $$y - y_{t}$$. Что удобно в некоторых приложениях, таких как обратное распространение.

person M.V.    schedule 08.11.2017

Обозначение ∥v∥ просто обозначает обычную функцию длины для вектора v. Из онлайн-учебника, на который вы ссылались .

Дополнительную информацию о двойных полосах можно найти здесь. Но, насколько я понимаю, вы можете рассматривать это как абсолютный термин.

Не знаю, почему написано 2n, но это не всегда 2n. Википедия, например, записывает функцию следующим образом:

введите здесь описание изображения

Погуглите среднеквадратичная ошибка также имеет множество источников, использующих Википедию, а не источник из онлайн-учебника.

person Thomas Wagenaar    schedule 18.05.2017

Двойная черта — это мера расстояния, а квадратная скобка неверна, если у многомерно. Для среднеквадратичной ошибки нет 2 с n, но это неважно. Это будет поглощено скоростью обучения. Однако часто бывает необходимо отменить квадратное число 2 при оценке производной.

person Tieying    schedule 01.05.2021