Я не знаком с глубоким обучением, поэтому это может быть вопрос для новичков. Насколько я понимаю, функция softmax в многослойных персептронах отвечает за нормализацию и распределение вероятностей для каждого класса. Если да, то почему бы нам не использовать простую нормализацию?
Допустим, мы получили вектор x = (10 3 2 1)
с применением softmax, на выходе будет y = (0.9986 0.0009 0.0003 0.0001)
.
Применение простой нормализации (деление каждого элемента на sum(16)
) будет y = (0.625 0.1875 0.125 0.166)
.
Кажется, что простая нормализация также может распределить вероятности. Итак, в чем преимущество использования функции softmax на выходном слое?