Как измерить сходство между двумя деревьями кластеризации, полученными в результате иерархической кластеризации?

Я хочу применить метод иерархической кластеризации (т. е. агломеративную кластеризацию) к разным наборам данных. Я хотел бы сравнить полученные деревья кластеризации. Есть ли какое-нибудь решение для этого? Заранее спасибо.


person biborno    schedule 03.10.2018    source источник


Ответы (1)


Есть много способов сделать это. Я бы посоветовал вам взглянуть на раздел «сравнение двух дендрограмм» в виньетке для dendextend:

https://cran.r-project.org/web/packages/dendextend/vignettes/introduction.html#comparing-two-dendrograms

Вероятно, проще всего использовать функцию cor_cophenetic.

person Tal Galili    schedule 05.10.2018
comment
каково определение кофенетических корреляций при сравнении двух дендрограмм? Я не мог найти определение и логику кофенетической корреляции. - person biborno; 15.10.2018
comment
Вы можете проверить здесь: en.wikipedia.org/wiki/Cophenetic_correlation Это в основном похожее расстояние матрица как исходная, чтобы при кластеризации она давала те же результаты иерархической кластеризации, что и у вас, но расстояние между элементами из разных ветвей обычно равно высоте самой нижней общей ветви. Эта матрица получается из обеих дендрограмм, и совпадающие значения (т. е. пары расстояний) сопоставляются, и по ним вычисляется корреляция (скажем, Пирсона). Это говорит вам, насколько два элемента одинаково удалены в обоих деревьях. - person Tal Galili; 03.11.2018