Обучаются ли даже средние слои в Resnet?

Пропускаемые соединения позволяют нашему градиенту полностью от 152-го уровня и пропускать через начальный 1-й или 2-й уровни CNN. А как насчет средних слоев? Обратное распространение в этих средних слоях совершенно неуместно, так что мы вообще учимся в resnet?


person Sreemanto Kesh    schedule 23.03.2019    source источник


Ответы (1)


Обратное распространение в этих средних слоях не имеет значения. Основная идея актуальности средних уровней заключается в том, что ResNet продолжает улучшать свою частоту ошибок при добавлении новых слоев (с 5,71 ошибки top5 с 34 уровнем до 4,49 ошибки top5 со 152). Изображения имеют много особенностей и сложностей, и сотрудники Microsoft выяснили, что, когда вы решаете проблему исчезающего градиента (с сквозной передачей), вы можете получить больше знаний во всей сети с большим количеством слоев.

Идея добавления остаточного блока заключается в том, чтобы предотвратить проблему исчезающего градиента, когда вы получаете слишком много слоев ... Но средние слои также обновляются на каждом этапе обучения, и они также обучаются (обычно это высокоуровневые функции) .

Сверточные нейронные сети с большим количеством слоев имеют тенденцию переоснащаться, если проблема не слишком сложна, поскольку ее 152 слоя способны изучать множество различных шаблонов.

person pedroprates    schedule 23.03.2019
comment
этот ответ имеет смысл и отчасти то, что я думал. Я понимаю, что чем больше мы добавляем слоев, тем лучше он будет предсказывать сложный паттерн, но это произойдет только в том случае, если сеть продолжит саморегулироваться, что будет происходить только через обратное распространение. Таким образом, отсутствие обратного распространения (из-за исчезающего градиента, который будет происходить в средних слоях) означает отсутствие корректировки веса, и, таким образом, не противоречит цели добавления дополнительных слоев? - person Sreemanto Kesh; 24.03.2019