Почему линейное преобразование повышает точность и эффективность классификации многомерных данных?

Пусть X будет набором данных m×n (m: количество записей и n: количество атрибутов). Когда количество атрибутов n велико, а набор данных X зашумлен, классификация усложняется, а точность классификации снижается. Один из способов решить эту проблему — использовать линейное преобразование, т. е. выполнить классификацию по Y = XR, где R — матрица размера n×p, а p‹=n. Мне было интересно, как линейное преобразование упрощает классификацию? и почему точность классификации увеличивается, если мы делаем классификацию на преобразованных данных Y, когда X зашумлен?

user1468089 24.04.2014 источник

comment

В многомерном пространстве понятие расстояния становится бессмысленным. Многие сложные классификаторы в значительной степени полагаются на некоторую меру расстояния, поэтому я предполагаю, что это одна из возможных причин. При этом рассмотрите возможность размещения своего вопроса на странице Computer Science или Перекрестная проверка. Здесь, в настоящее время, это не по теме. - BartoszKP 26.04.2014

Ответы (1)

arrow_upward
0
arrow_downward

Не все виды линейных преобразований будут работать, но некоторые линейные преобразования иногда полезны. В частности, анализ главных компонентов (PCA) и Факторный анализ — это линейные преобразования, часто используемые для уменьшения размерности.

Основная идея заключается в том, что большая часть информации, вероятно, содержится в какой-то линейной комбинации признаков набора данных, и что, отбрасывая остальные, мы заставляем себя использовать более простые модели/меньше переобучения.

Это не всегда так здорово. Например, даже если один из признаков на самом деле является тем, что мы пытаемся классифицировать, PCA все равно может отбросить его, если он имеет низкую изменчивость, что приведет к потере важной информации.

Guy Adini 26.04.2014

comment

Я полагаю, что это связано с леммой Джонсона-Линденштрауса: /wiki/Johnson%E2%80%93Lindenstrauss_lemma. Случайное встраивание небольшого набора точек данных высокой размерности в пространство низкой размерности будет сохранять расстояния правильным образом. - Guy Adini; 30.04.2014

comment

После сохранения расстояний лучшая разделимость, скорее всего, связана с отсутствием переобучения. - Guy Adini; 30.04.2014

Почему линейное преобразование повышает точность и эффективность классификации многомерных данных?

Ответы (1)

Похожие вопросы