Почему линейное преобразование повышает точность и эффективность классификации многомерных данных?

Пусть X будет набором данных m×n (m: количество записей и n: количество атрибутов). Когда количество атрибутов n велико, а набор данных X зашумлен, классификация усложняется, а точность классификации снижается. Один из способов решить эту проблему — использовать линейное преобразование, т. е. выполнить классификацию по Y = XR, где R — матрица размера n×p, а p‹=n. Мне было интересно, как линейное преобразование упрощает классификацию? и почему точность классификации увеличивается, если мы делаем классификацию на преобразованных данных Y, когда X зашумлен?


comment
В многомерном пространстве понятие расстояния становится бессмысленным. Многие сложные классификаторы в значительной степени полагаются на некоторую меру расстояния, поэтому я предполагаю, что это одна из возможных причин. При этом рассмотрите возможность размещения своего вопроса на странице Computer Science или Перекрестная проверка. Здесь, в настоящее время, это не по теме.   -  person BartoszKP    schedule 26.04.2014


Ответы (1)


Не все виды линейных преобразований будут работать, но некоторые линейные преобразования иногда полезны. В частности, анализ главных компонентов (PCA) и Факторный анализ — это линейные преобразования, часто используемые для уменьшения размерности.

Основная идея заключается в том, что большая часть информации, вероятно, содержится в какой-то линейной комбинации признаков набора данных, и что, отбрасывая остальные, мы заставляем себя использовать более простые модели/меньше переобучения.

Это не всегда так здорово. Например, даже если один из признаков на самом деле является тем, что мы пытаемся классифицировать, PCA все равно может отбросить его, если он имеет низкую изменчивость, что приведет к потере важной информации.

person Guy Adini    schedule 26.04.2014
comment
Я полагаю, что это связано с леммой Джонсона-Линденштрауса: /wiki/Johnson%E2%80%93Lindenstrauss_lemma. Случайное встраивание небольшого набора точек данных высокой размерности в пространство низкой размерности будет сохранять расстояния правильным образом. - person Guy Adini; 30.04.2014
comment
После сохранения расстояний лучшая разделимость, скорее всего, связана с отсутствием переобучения. - person Guy Adini; 30.04.2014