Использование анализа основных компонентов (PCA) для двоичных данных

Я использую PCA для двоичных атрибутов, чтобы уменьшить размеры (атрибуты) моей проблемы. Начальные размеры были 592, а после PCA размерности 497. Я использовал PCA раньше, на числовых атрибутах в другой задаче, и ему удалось уменьшить размеры в большей степени (половина начальных размеров). Я считаю, что бинарные атрибуты уменьшают мощность PCA, но я не знаю, почему. Не могли бы вы объяснить мне, почему PCA не работает так хорошо, как в числовых данных.

Спасибо.


person user1769484    schedule 22.11.2012    source источник


Ответы (1)


Главные компоненты данных 0/1 могут падать медленно или быстро, и ПК непрерывных данных тоже зависит от данных. Можете ли вы описать свои данные?

Следующее изображение предназначено для сравнения ПК непрерывных данных изображения с ПК тех же данных, квантованных до 0/1: в этом случае неубедительно.

Посмотрите на PCA как на способ получить приближение к большой матрице,
сначала с одним членом: приблизительно A ~ c U VT, c [Ui Vj].
Немного подумайте об этом. , с A скажем 10k x 500: U длиной 10k, длиной V 500. Верхняя строка равна c U1 V, вторая строка равна c U2 V ... все строки пропорциональны V. Точно так же крайний левый столбец равен c U V1 ... все столбцы пропорциональны U.
Но если все строки подобны (пропорциональны друг другу), они не могут приблизиться к матрице A со строками или столбцами 0100010101 ...
С большим количеством членов, A ~ c1 U1 V1T + c2 U2 V2T + ..., мы можем приблизиться к A: чем меньше чем выше ci, тем быстрее.. (Конечно, все 500 членов точно воссоздают A , с точностью до ошибки округления.)

введите здесь описание изображенияВерхний ряд — это «лена», известная матрица 512 x 512, с 1- член и 10-член SVD аппроксимации. Нижняя строка дискретизирована до 0/1, опять же с 1 термином и 10 терминами. Я думал, что 0/1 Лена будет намного хуже -- комментирует кто-нибудь?

(U VT также пишется как U V, называемое «диадой» или «внешним продуктом».)

(Статьи в Википедии Разложение по единственному числу и Приближение низкого ранга немного усложнено математикой. Колонка AMS Дэвида Остина, Мы рекомендуем разложение по единичным значениям дает некоторое представление о SVD/PCA — настоятельно рекомендуется.)

person denis    schedule 23.11.2012