«Идея состоит в том, чтобы использовать одну нейронную сеть во время тестирования без отсева. Веса этой сети являются уменьшенными версиями обученных весов. Если единица сохраняется с вероятностью p во время обучения, исходящие веса этой единицы умножаются на p во время тестирования, как показано на рисунке 2. Это гарантирует, что для любого скрытого блока ожидаемый результат (в соответствии с распределением, используемым для отбрасывания блоков во время обучения) будет таким же, как фактический результат во время тестирования ".
Почему мы хотим сохранить ожидаемый результат? Если мы используем активации ReLU, линейное масштабирование весов или активаций приводит к линейному масштабированию сетевых выходов и не влияет на точность классификации.
Что мне не хватает?