Я прочитал ответ, данный здесь. Мой точный вопрос относится к принятому ответу:
- Независимость от переменных: много регуляризации и усилий приложено, чтобы ваши переменные были независимыми, некоррелированными и довольно разреженными. Если вы используете слой softmax в качестве скрытого слоя, тогда все ваши узлы (скрытые переменные) будут линейно зависимы, что может привести ко многим проблемам и плохому обобщению.
Какие осложнения возникают при отказе от независимости переменных в скрытых слоях? Пожалуйста, приведите хотя бы один пример. Я знаю, что независимость скрытых переменных очень помогает в кодификации обратного распространения, но обратное распространение также может быть кодифицировано для softmax (пожалуйста, проверьте, прав ли я в этом утверждении. Кажется, я правильно понял уравнения. отсюда и утверждение) .
- Тренировочный вопрос: попробуйте представить, что для того, чтобы ваша сеть работала лучше, вам нужно сделать часть активаций из вашего скрытого слоя немного ниже. Затем - автоматически вы делаете остальные из них, чтобы иметь среднюю активацию на более высоком уровне, что на самом деле может увеличить ошибку и нанести вред вашей тренировочной фазе.
Я не понимаю, как вы достигаете такой гибкости даже в сигмовидном скрытом нейроне, где вы можете точно настроить активацию конкретного данного нейрона, что и является работой градиентного спуска. Так почему же мы вообще беспокоимся об этом вопросе. Если вы можете реализовать обратную опору, об остальном позаботится градиентный спуск. Точная настройка весов для корректной активации — это не то, что вы, даже если бы могли сделать, не смогли бы сделать. (Пожалуйста, поправьте меня, если я здесь ошибаюсь)
- математическая проблема: создавая ограничения на активацию вашей модели, вы уменьшаете выразительную силу своей модели без какого-либо логического объяснения. Стремление к тому, чтобы все активации были одинаковыми, на мой взгляд, того не стоит.
Пожалуйста, объясните, что здесь говорится
- Пакетная нормализация: я понимаю это, здесь нет проблем