Кластеризация ELKI измеряет, что они означают?

Я предоставляю метку класса для ELKI elki-bundle-0.7.1.

Он предоставляет много статистических данных, таких как ниже, но я не могу найти информацию о том, что это такое?

Я знаю f1-меру, точность и отзыв, но как может быть несколько мер? Разве они не должны рассчитываться по результату кластеризации?

Спасибо

Меры подсчета пар?

Jaccard 0.3851744186046512
F1-Measure 0.5561385099685204
Precision 0.6463414634146342
Recall 0.4880294659300184
Rand 0.8368055555555556
ARI 0.458537539334965

FowlkesMallows 0.5616348272664993

Меры, основанные на энтропии?

NMI Joint 0.5758289911830176
NMI Sqrt 0.7309481146561948

Меры на основе BCubed?

F1-Measure 0.7033781601851384
Recall 0.6901589423648247
Precision 0.7171136653895275

Меры на основе сопоставления наборов?

F1-Measure 0.7702702702702702
Purity 0.7916666666666667
Inverse Purity 0.7499999999999998

Монтажно-дистанционные меры?

F1-Measure 0.6312576312576313
Precision 0.6527777777777778
Recall 0.6111111111111112

Джини измеряет?

Mean +-0.2958 0.703636303877176

person MonsterMMORPG    schedule 06.04.2016    source источник
comment
есть отдельный стек, а именно - stackoverflow.com/questions/36439400/ - я ничего не говорю, просто вероятность получить ответ там выше.   -  person shabunc    schedule 06.04.2016
comment
MonsterMMORPG: код ELKI содержит множество ссылок на литературу. См. JavaDoc, в нем есть документация по этим мерам. Precision, Recall, F1 могут быть вычислены по разным сводкам, поэтому вы получаете разную точность, Recall, f1, в зависимости от того, на чем вы их вычисляете.   -  person Has QUIT--Anony-Mousse    schedule 06.04.2016
comment
@ Anony-Mousse, спасибо за ответ. мне нужны только результаты кластеризации. Меры подсчета пар - это то, что я должен посмотреть? тот, что используется в литературе?   -  person MonsterMMORPG    schedule 06.04.2016
comment
@Anony-Mousse из их документации я не вижу ничего пояснительного: elki.dbs.ifi.lmu.de/releases/release0.7.0/doc/index.html   -  person MonsterMMORPG    schedule 06.04.2016
comment
Вам нужно зайти в пакет оценки кластера для каждой из мер оценки. Например, класс BCubed имеет ссылку на показатели B²: dx.doi.org/10.3115/980451.980859 ... не ждите, что все будет на первой странице.   -  person Has QUIT--Anony-Mousse    schedule 06.04.2016


Ответы (1)


См. документацию ELKI. Мы реализовали множество мер по оценке. Вот выдержка из списка на http://elki.dbs.ifi.lmu.de/wiki/RelatedPublications

Силуэт:

P. J. Rousseeuw
Силуэты: графическое пособие для интерпретации и проверки кластерного анализа
In: Journal of Computational and Applied Mathematics, Volume 20

Индекс Рэнда:

Рэнд, В. М.
Объективные критерии оценки методов кластеризации
В: Journal of the American Statistical Association, Vol. 66 Выпуск 336

Фаулкс-Мэллоус:

Фаулкс, Э.Б. и Маллоус, К.Л.
Метод сравнения двух иерархических группировок

BCubed:

А. Багга и Б. Болдуин
Сопоставление ссылок между документами на основе сущностей с использованием модели векторного пространства
В: Proc. COLING '98 Материалы 17-й международной конференции по компьютерной лингвистике

Редактировать-Расстояние:

Пантел, П. и Лин, Д.
Объединение документов с комитетами
В: Proc. 25-я конференция ACM SIGIR по исследованиям и разработкам в области информационного поиска

Энтропийные меры:

Мейлэ, М.
Сравнение кластеров по вариации информации
В: Теория обучения и машины ядра

Нгуен, X. В. и Эппс, Дж. и Бейли, Дж.
Теоретико-информационные меры для сравнения кластеризаций: необходима ли поправка на случайность?
В: Proc. ICML '09 Материалы 26-й ежегодной международной конференции по машинному обучению

Чистота Set-Matching:

Штейнбах, М. и Карипис, Г. и Кумар, В.
Сравнение методов кластеризации документов
В: Семинар KDD по интеллектуальному анализу текста, 2000 г.

Э. Амиго, Дж. Гонсало, Дж. Артилес и Ф. Вердехо
Сравнение внешних показателей оценки кластеризации на основе формальных ограничений
В: Inf. Поиск, том. 12, нет. 5

Мейлэ, М.
Сравнение кластеров
В: Вашингтонский университет, Сиэтл, Технический отчет 418, 2002 г.

Чжао Ю. и Карипис Г.
Критериальные функции для кластеризации документов: эксперименты и анализ
В: Университет Миннесоты, факультет компьютерных наук, Технический отчет 01-40, 2001 г.

C-индекс:

Л. Дж. Хьюберт и Дж. Р. Левин
Общая статистическая основа для оценки категориальной кластеризации в свободном воспоминании.
В: Psychological Bulletin, Vol. 83(6)

Согласные пары:

Ф. Б. Бейкер и Л. Дж. Хьюберт
Измерение возможностей иерархического кластерного анализа
В: Journal of the American Statistical Association, 70(349)

Ф. Дж. Рольф
Методы сравнения классификаций
В: Ежегодный обзор экологии и систематики

Дэвис-Булдин:

Д. Л. Дэвис и Д. В. Булдин
Мера разделения кластеров
В: IEEE Transactions Pattern Analysis and Machine Intelligence PAMI-1(2)

ПБМ:

М. К. Пахира, С. Бандйопадхьяй и У. Маулик
Индекс достоверности для четких и нечетких кластеров
В: Распознавание образов, 37(3)

Критерии коэффициента дисперсии:

Р. Б. Калински и Дж. Харабаш
Дендритный метод для кластерного анализа
In: Communications in Statistics-theory and Methods, 3(1)

У нас также есть DBCV, но код еще не проверен и не объединен.

Моя личная рекомендация — использовать скорректированный индекс Rand из-за хорошей поправки на случайность. ARI меньше 0 означает, что результат хуже случайного. Практически при любом другом показателе даже случайный результат будет положительным.

person Erich Schubert    schedule 07.04.2016
comment
Эрих, будь любезен, скажи мне, где я могу прочитать, как ты применяешь меры Джини для измерения сходства разделов. Мне нужна формула и ссылка, если можно. - person ttnphns; 12.03.2019
comment
К сожалению, нет литературных ссылок на это. Я не думаю, что вам нужно что-то перенимать, это должно быть просто: $1/N^2 \sum_i |C_i|^2$. - person Erich Schubert; 13.03.2019
comment
Ой, извините. Конечно, это (предполагается) индекс Джини разделения дерева решений по отношению к кластерам, то есть взвешенная сумма Джини каждого кластера. Это делает выражение беспорядок, чтобы установить здесь без латекса. ∑ₐ |Cₐ|/N ∑ₒ (|Cₐ∩Kₒ|/|Cₐ|)² = 1/N ∑ₐ 1/|Cₐ| ∑ₒ |Cₐ∩Kₒ|² или что-то в этом роде. - person Erich Schubert; 14.03.2019