Искусственная нейронная сеть - почему обычно в скрытом слое используется функция активации сигмоида вместо функции активации сигмовидной формы?

почему функция активации log-сигмоида является основным выбором в скрытом слое вместо функции активации tanh-сигмоида? А также, если я использую нормализацию Z-оценки, могу ли я использовать функцию активации сигмоида в скрытом слое?


person Jeffrey    schedule 15.07.2017    source источник


Ответы (1)


Древняя история

Мотивация к использованию сигмовидной функции была исторически физически мотивированной. Первые нейронные сети в самом начале фактически использовали пошаговую функцию.

введите здесь описание изображения

Мотивация заключалась в том, что именно так нейроны работают в мозгу, по крайней мере, в понимании того времени. При определенной фиксированной энергии активации нейрон «активируется», переходя из неактивного (0) в активный (1). Однако эти сети очень трудно обучить, и стандартная парадигма также была физически мотивирована, например «Нейроны, которые используются часто, получают более прочную связь». Это работало для очень маленьких сетей, но не масштабировалось до более крупных сетей.

Градиентный спуск и появление сигмовидной кишки

В 80-х годах в нейронных сетях произошла небольшая революция, когда было обнаружено, что их можно обучать с помощью градиентного спуска. Это позволило масштабировать сети до гораздо больших масштабов, но также означало конец активации шага, поскольку он не дифференцируемый. Однако, учитывая долгую историю активации шага и его правдоподобную физическую мотивацию, люди не решались полностью отказаться от него и, следовательно, аппроксимировали его сигмовидной функцией, которая имеет много общих характеристик, но дифференцируема около 0.

Позже люди начали использовать функцию tanh, поскольку она центрирована по нулю, что в некоторых случаях дает несколько лучшие характеристики.

Революция

Затем в 2000 году в журнале Nature была опубликована основополагающая статья, в которой предлагалось использовать ReLU функция активации:

введите здесь описание изображения

Это было вызвано проблемами с более ранними функциями активации, но наиболее важным является скорость и тот факт, что она не страдает от проблема исчезающего градиента. С тех пор практически все ведущие исследования нейронных сетей использовали активацию ReLU или ее небольшие вариации.

Единственное исключение - это, возможно, повторяющиеся сети, где выход возвращается как вход. В них использование неограниченных функций активации, таких как ReLU, быстро привело бы к взрывному росту результатов, и в этих случаях люди все еще используют сигмоид и / или tanh.

person Jonas Adler    schedule 15.07.2017