Посмотрите, как более высокие измерения влияют на данные

Введение

Размерности набора данных — это количество функций/атрибутов/предикторов, которые его определяют. В типичной задаче машинного обучения мы помещаем информацию в модель, чтобы сделать прогноз и ввести эту информацию, мы обычно используем вектор с этими независимыми функциями. Таким образом, большее количество измерений означает большее количество данных, ведущих к лучшим результатам. Ура??

Вот где в игру вступает проклятие размерности. Увеличение количества признаков увеличивает точность модели, чтобы предсказать лучший результат, но это верно только для определенного значения. После ряда особенностей точность модели не увеличивается и не влияет на прогноз. Если мы продолжим увеличивать эти функции, модель индуцируется с ошибкой, которая увеличивается с увеличением количества предикторов, что делает модель невыгодной.

Почему это происходит?

Большинство реальных проблем с машинным обучением связаны с наборами данных, имеющими тысячи или даже миллионы функций (например, большинство изображений или текстовых данных, с которыми мы работаем), поэтому реальный вопрос заключается в том, почему это происходит!

Мы живем в трехмерном пространстве, и даже представить себе вещи в более высоких измерениях для нас довольно сложно, потому что по мере увеличения измерения данные ведут себя по-разному, превращая точку в одномерном пространстве в гиперкуб или тессаракт в 4D. Это влияние высших измерений. Например, если вы выберете случайную точку в единичном квадрате (1 × 1 квадрат), вероятность того, что она будет расположена на расстоянии менее 0,001 от границы, составит всего 0,4% (другими словами, очень маловероятно, что случайная точка будет «экстремальной» по какому-либо измерению). Но в 10 000-мерном гиперкубе (кубе ​​1 × 1 × ⋯ × 1 с десятью тысячами единиц) эта вероятность превышает 99,999999%.

Давайте возьмем пример, на рис. 3 у нас есть несколько точек на линии, одномерное пространство, и они довольно близко друг к другу, когда мы увеличиваем размеры до 2D и 3D, расстояние между этими точками становится огромным. Это называется Разреженность. Эта редкость данных является причиной проклятия наших наборов данных.

Если вы случайно выберете две точки в единичном квадрате, расстояние между этими двумя точками будет в среднем примерно 0,52. Если вы выберете две случайные точки в единичном трехмерном кубе, среднее расстояние будет примерно равно 0,66. Но как насчет двух точек, выбранных случайным образом в 1 000 000-мерном гиперкубе? Ну а среднее расстояние, хотите верьте, хотите нет, будет около 408,25. Это то, насколько разреженность влияет на данные.

Снять гусеницу в трубе (1D) проще, чем собаку, бегущую по плоскости (2D), и даже сложно для птиц, имеющих одно другое измерение.

Из-за этого модели, построенные на таких алгоритмах, как k-ближайших соседей или даже классификация, не дают хорошего результата, поскольку вся суть алгоритма, основанного на расстоянии и близости, подвергается сомнению.

Что с этим делать?

Теоретически одним из решений было бы увеличение размера обучающей выборки, но это потребовало бы больших вычислительных мощностей и времени, поскольку плотность обучения экспоненциально растет вместе с размерами.

Поскольку причиной такого поведения являются более высокие измерения, мы делаем уменьшение размерности. Как следует из названия, он устраняет функции, чтобы уменьшить размеры данных. Мы можем понять это на очень простом примере захвата изображения камерой. Камера фиксирует трехмерную активность в двухмерном изображении, тем самым уменьшая размерность, не влияя на содержание, которое мы хотели.

Уменьшение размерности может быть выполнено различными методами в зависимости от типа данных и требований, с которыми мы имеем дело. Это можно сделать 2-мя способами:

1. Выбор функции

Выбор признаков включает в себя такие методы, как прямой выбор, обратное исключение, которые фокусируются на выборе соответствующих признаков из набора данных.

2. Извлечение признаков

Извлечение признаков относится к аспекту проектирования признаков, при котором новые, более релевантные признаки создаются из имеющихся в наборе данных. Он включает в себя такие методы, как PCA (анализ основных компонентов), LDA (линейный дискриминантный анализ), t-SNE (встраивание t-распределенных стохастических соседей).

Заключение

Итак, как мы видели, как более высокие измерения влияют на данные, это происходит чаще в наборах данных реального мира из-за их сложности. Уменьшение размерности может служить средством для получения лучших результатов на основе данных и построения надежных моделей, особенно там, где расстояние между точками данных играет важную роль.

Заключительные мысли и заключительные комментарии

Как сказал Эндрю Нг , чтобы стать квалифицированным специалистом по данным, достаточно иметь навыки в разработке функций. Каждая модель подобна новорожденному, набор данных, с которым вы ее обучаете, будет определять результат этой модели.

Очистка шума и множества неоднородностей в данных (с которыми мы в основном работаем в реальном мире) имеет большое значение. Восстановление размерности — это один из аспектов разработки функций, который может дать лучшие результаты и справиться с этим нежелательным проклятием.