Функция стоимости MSE для обучения нейронной сети

В онлайн-учебнике по нейронным сетям и глубокому обучению автор иллюстрирует основы нейронных сетей с точки зрения минимизации квадратичная функция стоимости, которая, по его словам, является синонимом среднеквадратической ошибки. Однако меня смущают две вещи в этой функции (псевдокод ниже).

MSE≡(1/2n)*∑‖y_true-y_pred‖^2

Вместо того, чтобы делить сумму квадратов ошибок на количество обучающих примеров n, почему она делится на 2n? Как это может означать что-либо?
Почему вместо круглых скобок используется двойная черта? Это заставило меня подумать, что происходит какой-то другой расчет, например, L2-нормы, который явно не показан. Я подозреваю, что это не так, и этот термин предназначен для выражения старой простой суммы квадратов ошибок. Хотя супер запутанно.

Любое понимание, которое вы можете предложить, очень ценится!

neural-network mean-square-error

jklaus 18.05.2017 источник

Ответы (3)

arrow_upward
5
arrow_downward

Коэффициент 0,5, на который умножается функция стоимости, не важен. На самом деле вы можете умножить его на любую реальную константу, какую захотите, и обучение будет таким же. Он используется только для того, чтобы производная функции стоимости по выходу была просто $$y - y_{t}$$. Что удобно в некоторых приложениях, таких как обратное распространение.

M.V. 08.11.2017

arrow_upward
1
arrow_downward

Обозначение ∥v∥ просто обозначает обычную функцию длины для вектора v. Из онлайн-учебника, на который вы ссылались .

Дополнительную информацию о двойных полосах можно найти здесь. Но, насколько я понимаю, вы можете рассматривать это как абсолютный термин.

Не знаю, почему написано 2n, но это не всегда 2n. Википедия, например, записывает функцию следующим образом:

Погуглите среднеквадратичная ошибка также имеет множество источников, использующих Википедию, а не источник из онлайн-учебника.

Thomas Wagenaar 18.05.2017

arrow_upward
0
arrow_downward

Двойная черта — это мера расстояния, а квадратная скобка неверна, если у многомерно. Для среднеквадратичной ошибки нет 2 с n, но это неважно. Это будет поглощено скоростью обучения. Однако часто бывает необходимо отменить квадратное число 2 при оценке производной.

Tieying 01.05.2021

Функция стоимости MSE для обучения нейронной сети

Ответы (3)

Похожие вопросы