Учебник по анализу главных компонентов

Когда представлен большой набор данных, может быть трудно точно определить, какие функции являются значимыми. Анализ основных компонентов уменьшает количество переменных в наборе данных и извлекает «значимые» компоненты для анализа.

Управление наборами данных

В статистическом анализе наборы данных часто содержат большие объемы информации с несколькими переменными. Огромный объем этих данных достаточно сложен для управления на человеческом уровне. Это также может представлять проблему для алгоритмов машинного обучения.

Анализ главных компонентов ищет закономерности в данных и обнаруживает сходства или корреляции между переменными. Если корреляция существует, анализ пытается уменьшить избыточные переменные.

Что делает PCA ценным, так это то, что он ищет отношения в данных, которые уже существуют. Это более эффективно, чем требовать от вас заранее делать обоснованные предположения (о, как я скучаю по SPSS!).

Инверсия этого процесса имеет невероятную ценность, помогая найти то, что важно, но они не обязательно понимают, что на самом деле важно. Как метко отмечает Тайлер Виген, существует множество глупых корреляций:

PCA стремится выявить самые сильные закономерности корреляции в наборе данных, которые затем легче исследовать и визуализировать.

Пример

Например, допустим, вы хотите изучить схемы миграции белых медведей. Есть много данных для рассмотрения. Данные о миграции за десятилетия, биологические данные о физиологии белого медведя, исторические данные о погоде и климате и так далее.

Приведенные выше примеры — это лишь небольшой процент от объема данных, которые можно использовать, чтобы попытаться ответить на наш первоначальный вопрос. Проблема в том, все ли эти переменные коррелированы? Более того, вы понимаете, как они соотносятся друг с другом?

Проблема в том, что с таким количеством данных трудно понять, на чем сосредоточиться. Используя анализ основных компонентов, мы хотим «уменьшить размер нашего пространства признаков», удалив некоторые переменные и сосредоточив внимание на некоторых из них.

Устранение функций

В нашем примере с белым медведем мы можем обнаружить, что исторические данные о погоде ненадежны для нашей модели, потому что погода непредсказуема и может искажать данные. Например, если бы мы хотели определить закономерности миграции, наши данные могли бы быть искажены из-за влияния случайного погодного явления.

На соседнем графике мы можем рассматривать черную линию как регуляризованную модель наших данных о миграции белых медведей. Синие и красные точки представляют наши данные, а зеленая линия представляет данные, которые включают исторические данные о погоде.

Если бы вы анализировали наши шаблоны миграции, используя зеленую линию, информация не обязательно была бы неточной, но с большей вероятностью приводила бы к ошибкам.

Проще говоря: одно из этих случайных погодных явлений могло задержать нашу миграцию белых медведей на несколько недель. Изучение этой информации не является неверным, но оно может не иметь статистического значения для общего изучения их миграции.

Возьмем спортивный пример: бейсбольный сезон высшей лиги обычно заканчивается в конце сентября или начале октября. При анализе продолжительности бейсбольного сезона мы можем исключить из анализа определенные годы. Например, мы можем удалить данные о бейсбольном сезоне 1994 года, который закончился в начале августа из-за забастовки игрока.

Дело не в том, что данные неточны. Сезон ДЕЙСТВИТЕЛЬНО закончился в августе. Однако это не имеет значения, если наша цель — изучить типичную продолжительность бейсбольного сезона.

В реальном мире

PCA мало чем отличается от кластеризации K-Means или кластерного анализа в целом. На самом деле довольно распространенной практикой является применение PCA перед кластеризацией в качестве средства улучшения результатов. Как вы помните, алгоритм К-средних стремится упорядочить неразмеченные данные. При работе с большим объемом данных PCA может помочь уменьшить шум и улучшить результаты кластеризации.

PCA — это средство удаления переменных для раскрытия внутренней структуры ваших данных. Цель состоит в том, чтобы представить релевантные данные таким образом, чтобы наилучшим образом объяснить их взаимосвязь. Поэтому PCA широко используется во многих статистических анализах, направленных на создание прогностических моделей.

Финансовое прогнозирование, анализ рисков и исследование рынка являются ключевыми областями, в которых PCA получает широкое распространение. Распознавание лиц и отпечатков пальцев также использует PCA. Та же алгоритмическая основа, что и в приведенных выше примерах, применяется для исключения переменных и интерпретации/распознавания изображения в соответствии с наиболее тесно связанными признаками.

Первоначально опубликовано на introspectdata.com 18 сентября 2018 г.