Это отредактированная версия предыдущего вопроса.
Нам дана таблица m на n из n наблюдений (выборок) над m переменными (генами и т. д.). , и мы хотим изучить поведение переменных между каждой парой наблюдений — например, два наблюдения, имеющие самую высокую положительную или отрицательную корреляцию. Для этой цели я видел отличную диаграмму у Stadler et.al. Бумага природы (2011):
Здесь это может быть образец набора данных для использования.
m <- 1000
samples <- data.frame(unif1 = runif(m), unif2 = runif(m, 1, 2), norm1 = rnorm(m),
norm2 = rnorm(m, 1), norm3 = rnorm(m, 0, 5))
Я уже протестировал gpairs(samples)
пакета gpairs
, который создает этот. Это хорошее начало, но у него нет возможности разместить коэффициенты корреляции в правом верхнем углу или графики плотности в нижнем углу:
Затем я использовал ggpairs(samples, lower=list(continuous="density"))
из пакета GGally
(спасибо @LucianoSelzer за комментарий ниже). Теперь у нас есть корреляции в верхнем углу и плотности в нижнем углу, но нам не хватает диагональных гистограмм, а графики плотности не имеют форму тепловой карты.
Есть идеи, как сделать картинку ближе к желаемой (первой)?