Пропускаемые соединения позволяют нашему градиенту полностью от 152-го уровня и пропускать через начальный 1-й или 2-й уровни CNN. А как насчет средних слоев? Обратное распространение в этих средних слоях совершенно неуместно, так что мы вообще учимся в resnet?
Обучаются ли даже средние слои в Resnet?
Ответы (1)
Обратное распространение в этих средних слоях не имеет значения. Основная идея актуальности средних уровней заключается в том, что ResNet продолжает улучшать свою частоту ошибок при добавлении новых слоев (с 5,71 ошибки top5 с 34 уровнем до 4,49 ошибки top5 со 152). Изображения имеют много особенностей и сложностей, и сотрудники Microsoft выяснили, что, когда вы решаете проблему исчезающего градиента (с сквозной передачей), вы можете получить больше знаний во всей сети с большим количеством слоев.
Идея добавления остаточного блока заключается в том, чтобы предотвратить проблему исчезающего градиента, когда вы получаете слишком много слоев ... Но средние слои также обновляются на каждом этапе обучения, и они также обучаются (обычно это высокоуровневые функции) .
Сверточные нейронные сети с большим количеством слоев имеют тенденцию переоснащаться, если проблема не слишком сложна, поскольку ее 152 слоя способны изучать множество различных шаблонов.