Автор - Сурадип Чакраборти

Пространство большого размера и удивительное поведение большинства показателей расстояния в этом пространстве

Я всегда был очень увлечен концепциями многомерного пространства и его последствиями в области машинного обучения. Как мы знаем, по мере увеличения размерности пространства признаков количество конфигураций может расти экспоненциально, и, таким образом, количество конфигураций, охватываемых наблюдением, уменьшается. Вышеупомянутое объяснение относится к школе мысли о степени свободы, но теперь давайте подумаем о проклятии высокой размерности с другой точки зрения - школы мыслей, измеряющих расстояние.

Наши интуиции, которые в основном развиваются на основе двухмерной и трехмерной визуализации вещей, часто не применимы к многомерным. В более высоких измерениях большая часть массы многомерного гауссова распределения находится не вблизи среднего, а во все более удаленной «оболочке» вокруг него. Если постоянное количество примеров равномерно распределено в многомерном гиперкубе, за пределами некоторой размерности большинство примеров ближе к грани гиперкуба, чем к их ближайшему соседу, и вышесказанное было точно объяснено в [1 ].

В пространстве более высоких измерений евклидово расстояние практически теряет свой смысл. В основном то, что происходит в пространстве очень высокой размерности, заключается в том, что попарное расстояние между точками приближается к постоянному значению, и становится чрезвычайно трудно дифференцировать или кластеризовать эти точки данных высокой размерности, и, следовательно, становится чрезвычайно необходимо проецировать то же самое в коллекторе более низкой размерности. чтобы избежать проклятия размерности.

Проклятие уменьшения размерности в контролируемом обучении и Спаситель !!!

В приведенных выше сценариях Анализ главных компонентов (PCA) рассматривался как наиболее часто используемый подход для уменьшения размерности данных, при этом сохраняя как можно больше вариаций, присутствующих в наборе данных.

При этом одним из основных недостатков PCA и Principal Component Directions (PC) является его применимость в задачах контролируемого обучения, как обсуждалось в нашем предыдущем блоге « Риски и предостережения при применении PCA для задач контролируемого обучения [2]. Общая ошибка, сделанная несколько раз в различных прошлых исследованиях, состоит в том, что направление ПК с максимальным собственным значением будет наиболее важным направлением в объяснении переменной отклика, а направление с наименьшим собственным значением будет наименее важным. Но это совсем не правильно, поскольку величина собственных значений представляет объяснимость в пространстве признаков, а не в пространстве переменных отклика. Следовательно, подход к уменьшению размерности с помощью разложения по дисперсии пространства признаков не является наиболее подходящим способом для получения проекции, скорее мы должны пойти на подход, при котором целевая функция заботится об обоих компонентах, т.е. объясняет дисперсию в признаке. пространство, а также пространство ответа. Вот где частичная регрессия наименьших квадратов выступает в роли спасителя !!!!

Частичный наименьший квадрат - интуиция и понимание

Как обсуждалось в предыдущем разделе, основная проблема заключается в повороте, а уменьшение размерности для объяснения максимального изменения X не гарантирует получение скрытых функций, которые подходят для прогнозирования y и, следовательно, основная цель частичного наименьшего Квадратная регрессия (PLSR) предназначена для проецирования данных в пространство скрытых переменных таким образом, чтобы максимизировать ковариацию между пространством признаков X и откликом Y.

Перед началом процесса переменная отклика Y должна быть отцентрирована, а пространство признаков X должно быть стандартизовано, чтобы не было влияния величины на выходные компоненты.

Итак, для первого скрытого вектора ищите такой вектор t = Xw, что

Итак, из приведенного выше уравнения w - это единичный вектор, который максимизирует ковариацию между Xw и Y.

Итак, чтобы максимизировать ковариацию, w должен быть в направлении XᵀY.

Интуитивное понимание приведенного выше уравнения состоит в том, что мы проецируем переменную ответа Y на каждый вектор признаков Xj и наблюдая, насколько вариации Y можно объяснить каждым Xj отдельно, а затем использовать все этого и добавляя их, чтобы получить вектор первого скрытого признака t.

Итак, основная идея состоит в том, чтобы взять Y, найти проекцию Y вдоль X₁ и найти проекцию Y вдоль X₂, и полученное направление, которое является суммой двух, будет первым направлением PLS.

Теперь следующим шагом будет регрессия Y для первого компонента PLS t и получение коэффициента θ_hat.

Затем пространство признаков ортогонализируется относительно первого компонента PLS t и Xj ' получается для каждого j,, который по сути является новым пространством функций для следующего шага алгоритма. Тот же процесс продолжается, как упомянуто выше, с новым пространством функций, и получается t ’.

Основным преимуществом этого процесса является то, что компоненты ортогональны друг другу, и, следовательно, регрессия по Y может выполняться индивидуально с помощью одномерных регрессионных моделей.

Выше было очень краткое математическое и интуитивно понятное объяснение силы уменьшения размерности в контролируемом обучении с использованием компонентов PLS. Теперь давайте проверим вышеприведенную гипотезу с помощью данных.

Частичная регрессия наименьших квадратов - проверка гипотезы

Давайте теперь проведем моделирование и получим геометрическое понимание математической интуиции. Объяснение было проиллюстрировано с использованием моделирования для двумерного пространства признаков (X) и одной переменной отклика, чтобы было легко понять гипотезу визуально.

Наша цель - показать, что для контролируемых задач компонент PLS является рекомендуемым методом уменьшения размерности, чем метод на основе главных компонентов, поскольку он также включает пространство переменных отклика, и y моделируется с учетом этого. Обратитесь к нашему блогу [2] для подробного объяснения этого.

Итак, теперь в этом примере мы спроецируем пространство функций в 1-е пространство PLS и сравним результаты с результатами, сделанными для 1-го основного пространства компонентов , чтобы показать свое превосходство.

Как видно, PLS1 может объяснить Y с достаточно хорошей точностью, которая может быть зафиксирована диапазоном X. Давайте посмотрим результаты для 1-го главного компонента в том же наборе данных.

Результаты, показанные на рис. 9 и 10, подтверждают нашу гипотезу об использовании PLSR в контролируемых задачах с использованием методов уменьшения размерности на основе пространства признаков.

Частичная регрессия наименьших квадратов - разнообразие приложений

Помимо вышеупомянутых преимуществ, алгоритм PLS имеет свои приложения для задач регрессии, классификации, выбора переменных и анализа выживаемости, охватывающих геномику, хемометрию, нейроинформатику, управление процессами, компьютерное зрение, эконометрические исследования, исследования окружающей среды и т. Д. В статье «Применение частичной регрессии наименьших квадратов в сезонном прогнозировании речного стока» [4] также объясняется ее применимость в этой области. В заключение отметим, что компоненты PLS намного более надежны и применимы в сценариях контролируемого обучения.

Последние мысли :

Я надеюсь, что этот пост смог помочь вам понять концепции Проклятия размерности с точки зрения метрики расстояния и почему важно уменьшить размеры, а также математическое понимание и интуицию использования Подход на основе частичного наименьшего квадрата для уменьшения размерности пространства признаков при наличии переменной ответа.

Если у вас есть какие-либо мысли, комментарии или вопросы, оставьте комментарий ниже или свяжитесь с нами в LinkedIn.

Приятного чтения :)



Ссылки:

[1]. Статья Чару К. Аггарвала, Александра Хиннебурга и Даниэля А. Кейма о «удивительном поведении метрик расстояния в многомерном пространстве».

[2]. Блог Сурадипа Чакраборти, Амлана Джоти Даса и Сая Яшванта о Рисках и предостережениях при применении PCA для задач контролируемого обучения. ( https://towardsdatascience.com/risks-and-caution-on-applying-pca-for-supervised-learning-problems-d7fac7820ec3).

[3]. Презентация Боба Коллинза о частичной регрессии наименьших квадратов (http://vision.cse.psu.edu/seminars/talks/PLSpresentation.pdf).

[4]. Шаламу Абуду, Дж. Филиппа Кинга и статьи Томаса С. Пагано о применении частичной регрессии наименьших квадратов в сезонном прогнозировании стока .