http://francky.me/faqai.php#otherFAQs:
Тема: Какую скорость обучения следует использовать для обратного распространения информации?
В стандартном обратном распространении слишком низкая скорость обучения заставляет сеть учиться очень медленно. Слишком высокая скорость обучения приводит к расхождению весов и целевой функции, поэтому обучение не происходит вообще. Если целевая функция является квадратичной, как в линейных моделях, хорошие темпы обучения можно вычислить с помощью матрицы Гессе (Bertsekas and Tsitsiklis, 1996). Если целевая функция имеет много локальных и глобальных оптимумов, как в типичных сетевых сетях прямого распространения со скрытыми модулями, оптимальная скорость обучения часто резко меняется в процессе обучения, поскольку гессиан также резко меняется. Попытка обучить сетевую сеть с постоянной скоростью обучения - обычно утомительный процесс, требующий многих проб и ошибок. Для некоторых примеров того, как выбор скорости обучения и импульса взаимодействует с числовым условием в некоторых очень простых сетях, см. ftp://ftp.sas.com/pub/neural/illcond/illcond.html
При пакетном обучении нет необходимости использовать постоянную скорость обучения. На самом деле, нет никаких причин для использования стандартного обратного распространения, поскольку существуют гораздо более эффективные, надежные и удобные алгоритмы пакетного обучения (см. Quickprop и RPROP в разделе «Что такое обратное распространение?» И многочисленные алгоритмы обучения, упомянутые в разделе «Что такое сопряженное градиенты, Левенберга-Марквардта и т. д.? »).
Было изобретено много других вариантов обратного распространения звука. Большинство из них страдают от того же теоретического недостатка, что и стандартное обратное распространение: величина изменения весов (размер шага) НЕ должна быть функцией величины градиента. В некоторых областях весового пространства градиент небольшой, и вам нужен большой размер шага; это происходит, когда вы инициализируете сеть с небольшими случайными весами. В других областях весового пространства градиент небольшой, и вам нужен небольшой размер шага; это происходит, когда вы приближаетесь к локальному минимуму. Точно так же большой градиент может потребовать либо небольшого шага, либо большого шага. Многие алгоритмы пытаются адаптировать скорость обучения, но любой алгоритм, который умножает скорость обучения на градиент для вычисления изменения весов, вероятно, приведет к неустойчивому поведению при резком изменении градиента. Большим преимуществом Quickprop и RPROP является то, что они не имеют этой чрезмерной зависимости от величины градиента. Обычные алгоритмы оптимизации используют не только градиент, но также производные второго порядка или линейный поиск (или некоторую их комбинацию) для получения хорошего размера шага.
При инкрементальном обучении гораздо сложнее придумать алгоритм, который автоматически регулирует скорость обучения во время обучения. В литературе НН появлялись различные предложения, но большинство из них не работает. Проблемы с некоторыми из этих предложений проиллюстрированы Даркеном и Муди (1992), которые, к сожалению, не предлагают решения. Некоторые многообещающие результаты предоставлены ЛеКаном, Симардом и Перлмуттером (1993) и Орром и Лином (1997), которые адаптируют импульс, а не скорость обучения. Существует также вариант стохастической аппроксимации, называемый «повторное усреднение» или «усреднение по Поляку» (Kushner and Yin, 1997), который теоретически обеспечивает оптимальные скорости сходимости путем сохранения скользящего среднего значений весов. У меня нет личного опыта использования этих методов; Если у вас есть какие-либо веские доказательства того, что эти или другие методы автоматической установки скорости обучения и / или импульса в инкрементальном обучении действительно работают в большом количестве приложений NN, сообщите об этом специалисту по сопровождению FAQ ([email protected]).
Ссылки:
- Бертсекас Д. П. и Цициклис Дж. Н. (1996), Нейродинамическое программирование, Бельмонт, Массачусетс: Athena Scientific, ISBN 1-886529-10-8.
- Даркен К. и Муди Дж. (1992), «На пути к более быстрому поиску стохастического градиента», в: Муди, Дж. Э., Хэнсон, С. Дж., И Липпманн, Р. П., ред.
- Достижения в системах обработки нейронной информации 4, Сан-Матео, Калифорния: Издательство Morgan Kaufmann, стр. 1009-1016. Кушнер, Х.Дж., Инь, Г. (1997), Алгоритмы стохастической аппроксимации и их приложения, Нью-Йорк: Springer-Verlag. LeCun, Y., Simard, P.Y., и Pearlmetter, B. (1993), "Автоматическая максимизация скорости обучения путем онлайн-оценки собственных векторов Гессе", в Hanson, S.J., Cowan, J.D., and Giles,
- C.L. (ред.), Достижения в системах обработки нейронной информации 5, Сан-Матео, Калифорния: Морган Кауфманн, стр. 156-163. Орр, Дж. и Лин, Т. (1997), «Использование информации о кривизне для быстрого стохастического поиска», в
- Мозер М.К., Джордан М.И. и Петше Т. (ред.) Достижения в системах обработки нейронной информации 9, Кембридж, Массачусетс: The MIT Press, стр. 606-612.
Кредиты:
person
Franck Dernoncourt
schedule
10.07.2012