Как мне интерпретировать вывод corpplot?

Пакеты corrplot содержат несколько аккуратных графиков и документы с примерами.

Но я не понимаю вывод. Я вижу, что если у вас есть матрица A_ij, вы можете построить ее как расположение n на n квадратных плиток, где цвет плитки ij соответствует значению A_ij. Но некоторые примеры, кажется, имеют больше измерений:

введите здесь описание изображения

Здесь мы можем догадаться, что цвет показывает коэффициент корреляции, а ориентация эллипса — отрицательная/положительная корреляция. Что такое эксцентриситет?

В документации для method говорится:

используемый метод визуализации корреляционной матрицы. В настоящее время он поддерживает семь методов с именами «круг» (по умолчанию), «квадрат», «эллипс», «число», «круговая диаграмма», «тень» и «цвет». Подробности смотрите в примерах.

Площади кружков или квадратов показывают абсолютное значение соответствующих коэффициентов корреляции. Круговая диаграмма метода и тень пришли из работы Майкла Френдли (с некоторыми добавленными корректировками в отношении тени), а эллипс — из работы Д.Дж. Мердок и Э.Д. Работу Чоу см. в разделе «Ссылки».

Итак, мы знаем, что площадь для кругов и квадратов должна показывать коэффициент. Как насчет других измерений и других методов?


person Superbest    schedule 19.06.2014    source источник
comment
Вы читали ссылку которую дали? Сравните форму, когда корреляция равна 1 и когда корреляция равна 0,2. Цвета — это коэффициенты корреляции. Я согласен, что в информации, предоставленной этим сюжетом, есть избыточность.   -  person    schedule 19.06.2014


Ответы (2)


На графике показано только одно измерение.

Майкл Френдли в статье Corrgrams: исследовательские дисплеи для корреляционных матриц (документация corrplot ошибочно называет это его работой) говорит:

В заштрихованном ряду каждая ячейка закрашена синим или красным в зависимости от знака корреляции, а интенсивность цвета масштабируется от 0 до 100% пропорционально величине корреляции. (Такие масштабированные цвета легко вычисляются с помощью кодирования RGB от красного (1, 0, 0) через белый (1, 1, 1) до синего (0, 0, 1). Для простоты мы игнорируем нелинейности цветопередачи и восприятия, но обратите внимание, что они легко согласуются с функцией цветового отображения.) Белые диагональные линии добавляются, чтобы направление корреляции все еще можно было различить в черно-белом изображении. Эта биполярная цветовая шкала была выбрана, чтобы оставить корреляции около 0 пустыми (белыми) и сделать положительные и отрицательные значения равной величины примерно одинаково интенсивно затененными. Шкала серого и другие цветовые схемы реализованы в нашем программном обеспечении (раздел 6), но здесь не показаны.

Штриховые и круглые символы также используют те же масштабированные цвета, но заполняют площадь, пропорциональную абсолютному значению корреляции. Для столбцов отрицательные значения заполняются снизу, положительные — сверху. Кружки заполняются по часовой стрелке для положительных значений и против часовой стрелки для отрицательных значений. Эллипсы имеют эксцентриситет, параметрически масштабированный в соответствии со значением корреляции (Мердок и Чоу, 1996). В восприятии они имеют свойство становиться визуально менее заметными по мере увеличения величины корреляции, в отличие от других глифы.

(выделено мной)

введите здесь описание изображения

Murdoch and Chow, 1996 — это публикация, описывающая уравнение для рисования эллипсов (A Graphical Display of Large Correlation Matrix). Эллипсы, по-видимому, предназначены для карикатуры на двумерные нормальные распределения:

введите здесь описание изображения

Таким образом, единственным показанным параметром всегда является сам коэффициент корреляции (или значение A_ij, если использовать терминологию вопроса). Множественные кажущиеся измерения являются излишними.

person Superbest    schedule 19.06.2014
comment
Хорошая находка. Математика также переводится в код R. Однако, что такое многомерность? - person asb; 19.06.2014
comment
@asb Можно сказать, что различные аспекты геометрических фигур, такие как цвет, размер, эксцентриситет (если эллипс), вращение, затенение, высота, процент заполнения (если круговая диаграмма), представляют измерения данных. - person Superbest; 19.06.2014

Я думаю, что сюжет вполне объясним. С правой стороны у вас есть scale, окрашенный от красного (отрицательная корреляция) до синего (положительная корреляция). Цвет следует градиенту в соответствии с силой корреляции.

Если эллипс наклонен вправо, это снова положительная корреляция, а если он наклонен влево, это отрицательная корреляция.

Диффузия вокруг линии (которая обозначает идеальную корреляцию, например, миль на галлон ~ миль на галлон) создает эллипс. У вас будет более рассеянный эллипс для более низких сил корреляции. Обычно так слабо коррелированные отношения будут выглядеть на диаграмме рассеяния. Однако я думаю, что это карикатуры.

Вот код из функции corrplot, отвечающей за рисование эллипсов. Я не буду пытаться объяснить это (потому что это часть более крупной системы). Я хотел показать, что вся логика существует, если вы хотите углубиться в нее:

if (method == "ellipse" & plotCI == "n") {
    ell.dat <- function(rho, length = 99) {
        k <- seq(0, 2 * pi, length = length)
        x <- cos(k + acos(rho)/2)/2
        y <- cos(k - acos(rho)/2)/2
        return(cbind(rbind(x, y), c(NA, NA)))
    }
    ELL.dat <- lapply(DAT, ell.dat)
    ELL.dat2 <- 0.85 * matrix(unlist(ELL.dat), ncol = 2, 
        byrow = TRUE)
    ELL.dat2 <- ELL.dat2 + Pos[rep(1:length(DAT), each = 100), 
        ]
    polygon(ELL.dat2, border = col.border, col = col.fill)
}
person asb    schedule 19.06.2014
comment
Как рассчитывается то, что вы называете диффузией? - person Superbest; 19.06.2014
comment
@Superbest: я думаю, вам следует сначала построить несколько коррелированных переменных без пакета. Это даст вам хорошее представление о том, как должны выглядеть диаграммы рассеяния. - person asb; 19.06.2014