Систематическая методология непрерывного анализа ускоренных градиентных методов

В машинном обучении мы часто минимизируем функцию потерь, чтобы разница между точкой решения и оценками сходилась к нулю.

Мы налагаем разумное структурное предположение, что функция является выпуклой, поскольку она обладает удобным свойством, состоящим в том, что все локальные минимумы также являются глобальными минимумами. Рассматривая выпуклую и дифференцируемую функцию f, наша задача оптимизации состоит в том, чтобы минимизировать f, где X_★ – это минимизатор. (если существует), а f_★ — оптимальное значение задачи.

Градиентный спуск — базовый алгоритм первого порядка решения этой задачи выпуклой оптимизации. Однако наивный градиентный спуск развивает множество зигзагообразных моделей обновлений и имеет медленную скорость сходимости.

Разработка эффективных методов первого порядка с более высокой скоростью сходимости вызвала большой интерес в выпуклой оптимизации, что привело к многочисленным модификациям градиентного спуска. Знаменитый метод ускоренного градиента (AGM) Нестерова (1983) позволяет уменьшать значение функции с ускоренной скоростью O(1/k²). То есть ошибка в k-й точке последовательности x_k (LHS) ограничена функцией от k (RHS) с порядком O(1/k²).

Как мы можем прийти к такому доказательству скорости сходимости? Широко используемый метод заключается в построении функции Ляпунова и использовании того факта, что это невозрастающая функция. В контексте выпуклой оптимизации первого порядка типичный пример функции Ляпунова V(k) может быть сформирован следующим образом, где C(k) — некоторая положительная функция. Основная работа в этой процедуре посвящена упорядочению членов, составляющих функцию C(k).

Анализ методов ускоренного градиента с непрерывной точки зрения

Алгоритм градиента, рассмотренный выше, проиллюстрирован в дискретной настройке, поскольку мы анализируем последовательность чисел с помощью рекурсивного правила. С другой стороны, непрерывная модель описывает динамически изменяющиеся величины, такие как время, используя соответствующее обыкновенное дифференциальное уравнение (ОДУ) в качестве математического инструмента. Непрерывные модели времени намного проще анализировать, чем их дискретные аналоги (одна из причин заключается в том, что мы можем использовать дифференциалы и интегралы), а широко изученные идеи моделирования ОДУ в математической физике могут способствовать наша интуиция для более эффективных методов оптимизации.

Используя преимущества непрерывной структуры, анализ ускоренных градиентных методов в непрерывном времени состоит из следующих шагов:

Смоделируйте ОДУ с высокой скоростью сходимости.
Проанализируйте и докажите скорость сходимости ОДУ в непрерывном режиме с помощью функции Ляпунова.
Дискретизировать или перевести ОДУ в его дискретный аналог, чтобы реализовать алгоритм для реальных вычислений.
Выполните также анализ сходимости к дискретизированной версии.

Несмотря на упрощенную по своей природе процедуру, анализ сходимости в непрерывном времени по-прежнему страдает от узкого места в поиске подходящей функции Ляпунова. Анализ предыдущей работы часто начинается с определения функции Ляпунова неясного происхождения. По правде говоря, эти функции Ляпунова получены в результате многих часов проб и ошибок.

В статье, принятой на ICML 2022, мы предлагаем систематическую методологию получения таких функций Ляпунова. Используя новую методологию, мы делаем следующие вклады:

Мы восстанавливаем многие известные анализы нестеровского ускорения в непрерывном времени упрощенным способом.
Мы выполняем первый непрерывный анализ OGM-G, механизма ускорения, который был понят гораздо меньше, чем механизм AGM Нестерова.
Мы показываем, что центральная идея нашего метода обеспечивает прямую и естественную дискретизацию на основе численного анализа, а также сохраняет ускоренную скорость сходимости.

В этом сообщении блога мы дадим пошаговое объяснение нашей основной методологии и покажем, как она работает для OGM-G.

Наша идея: законы сохранения из расширенных координат

Предлагаемый нами рецепт непрерывного анализа состоит в том, чтобы (1) выполнить замену координат, а затем (2) получить закон сохранения. Мы объясним наш подход, применив его к классической ODE AGM, модели ODE AGM Нестерова, инициированной Su et al. (2014).

(1) Выполнить изменение координат

1. Заданное ОДУ AGM в координате X выглядит следующим образом, для r = 3 (числитель коэффициента при Ẋ) и t ∈ (0, ∞).

2. Выполните следующее изменение координаты с X на W, где W — это расширенная координата, поскольку мы умножаем время t — возрастающее значение — к исходному.

3. Мы выбираем 𝛼 = 2 в ожидании скорости O(1/t²), представленной AGM. Это приводит к следующему ODE AGM в координате W.

(2) Получить закон сохранения

Наша цель состоит в том, чтобы систематически сформировать функции Ляпунова, используемые в предыдущих анализах. Мы обнаруживаем, что после получения закона сохранения из ОДУ в расширенной системе координат результирующая постоянная функция содержит точные члены, составляющие функцию Ляпунова.

В физике закон сохранения механической энергии гласит, что полная энергия — сумма кинетической энергии и потенциальной энергии — остается постоянной. И такое отношение получается из дифференциального уравнения путем взятия скалярного произведения со скоростью и интегрирования от t_0 до t с обеих сторон. В том же духе мы берем скалярное произведение со «скоростью» Ẋ и интегрируем по времени, получая в результате константу.

Продолжая наш пример,

4. Возьмите внутреннее произведение между Ẇ («скорость») и ОДУ AGM в координате W. Обратите внимание, что цепное правило применяется ко второму члену.

5. Проинтегрируйте от t_0 до t с обеих сторон, чтобы получить соответствующий закон сохранения. Первые два члена закона сохранения образуют точную функцию Ляпунова, представленную авторами AGM ODE.

6. Поскольку f выпукла, подынтегральная функция неотрицательна, и мы заключаем с обещанной скоростью сходимости O(1/t²).

Общая форма законов сохранения

Мы проверили нашу методологию, используя обобщенную форму закона сохранения для восстановления анализов в предыдущих работах. Фактически, мы могли бы упростить анализ AGM ODE r › 3 с помощью Attouch et al. (2018), AGM ODE r ‹ 3 от Attouch et al. (2019), AGM ODE с условием роста по Aujol et al. (2019), SC-AGM Wilson et al. (2021), и ОДУ градиентного потока.

Новый непрерывный анализ OGM-G

Теперь мы представляем новую модель ОДУ OGM-G Кима и Фесслера, которая оптимальным образом уменьшает квадрат величины градиента (а не значение функции) для гладкой выпуклой минимизации.

1. Получите OGM-G ODE.

2. Выберите расширенную координату W=(T-t)^𝛼 (X-X _c) для некоторого X_c ∈ ℝ^n. Выберите 𝛼 = -2 в ожидании скорости O(1/T²).

3. Получить соответствующий закон сохранения.

Обратите внимание, что в знаменателе каждого члена закона сохранения есть вычитание.

4. Чтобы избежать любого неопределенного члена из-за деления на ноль, мы характеризуем динамику решения X OGM-G вблизи конечного момента времени t = Т.

5. Определить функцию Ляпунова Φ(t) из первых трех членов закона сохранения с X_c = X(Т). Это монотонно не возрастает.

6. Используя предел Φ(t) после применения правила Лопиталя, мы доказываем, что расширенное решение X демонстрирует обещанную скорость сходимости.

7. Аналогичным образом расширьте анализ для r ‹ -3, чтобы получить обобщенное доказательство OGM-G.

Выводы

В этом посте мы обрисовали в общих чертах предварительные сведения для доказательства скорости сходимости в методах выпуклой оптимизации. Также мы обсудили направление, в котором исследование моделей с непрерывным временем анализирует ускоренные градиентные методы. Мотивируясь сложностью получения функции Ляпунова в ходе анализа, мы представили методологию, выводящую законы сохранения в растянутых системах координат. Используя эту методологию, можно провести новый анализ OGM-G в непрерывном времени. Мы предполагаем, что наши расширенные координаты могут упростить анализ других установок, выходящих за рамки нашего исследования, например, в стохастических дифференциальных уравнениях, моделирующих стохастическую оптимизацию.

автор Сью Хён Пак

Подтверждение

Этот пост в блоге охватывает следующую статью из Сеульского национального университета:

Непрерывный анализ AGM с помощью законов сохранения в расширенных системах координат. Jaewook J. Suh, Gyumin Roh и Ernest K. Ryu, Международная конференция по машинному обучению (ICML) (длинная презентация, 118/5630 лучших статей = 2% статей), 2022 г.

Спасибо Jaewook Suh за предоставленную информацию и ценные отзывы об этом сообщении в блоге. Взгляды и мнения, выраженные в этом посте, принадлежат исключительно авторам.