См. документацию ELKI. Мы реализовали множество мер по оценке. Вот выдержка из списка на http://elki.dbs.ifi.lmu.de/wiki/RelatedPublications
Силуэт:
P. J. Rousseeuw
Силуэты: графическое пособие для интерпретации и проверки кластерного анализа
In: Journal of Computational and Applied Mathematics, Volume 20
Индекс Рэнда:
Рэнд, В. М.
Объективные критерии оценки методов кластеризации
В: Journal of the American Statistical Association, Vol. 66 Выпуск 336
Фаулкс-Мэллоус:
Фаулкс, Э.Б. и Маллоус, К.Л.
Метод сравнения двух иерархических группировок
BCubed:
А. Багга и Б. Болдуин
Сопоставление ссылок между документами на основе сущностей с использованием модели векторного пространства
В: Proc. COLING '98 Материалы 17-й международной конференции по компьютерной лингвистике
Редактировать-Расстояние:
Пантел, П. и Лин, Д.
Объединение документов с комитетами
В: Proc. 25-я конференция ACM SIGIR по исследованиям и разработкам в области информационного поиска
Энтропийные меры:
Мейлэ, М.
Сравнение кластеров по вариации информации
В: Теория обучения и машины ядра
Нгуен, X. В. и Эппс, Дж. и Бейли, Дж.
Теоретико-информационные меры для сравнения кластеризаций: необходима ли поправка на случайность?
В: Proc. ICML '09 Материалы 26-й ежегодной международной конференции по машинному обучению
Чистота Set-Matching:
Штейнбах, М. и Карипис, Г. и Кумар, В.
Сравнение методов кластеризации документов
В: Семинар KDD по интеллектуальному анализу текста, 2000 г.
Э. Амиго, Дж. Гонсало, Дж. Артилес и Ф. Вердехо
Сравнение внешних показателей оценки кластеризации на основе формальных ограничений
В: Inf. Поиск, том. 12, нет. 5
Мейлэ, М.
Сравнение кластеров
В: Вашингтонский университет, Сиэтл, Технический отчет 418, 2002 г.
Чжао Ю. и Карипис Г.
Критериальные функции для кластеризации документов: эксперименты и анализ
В: Университет Миннесоты, факультет компьютерных наук, Технический отчет 01-40, 2001 г.
C-индекс:
Л. Дж. Хьюберт и Дж. Р. Левин
Общая статистическая основа для оценки категориальной кластеризации в свободном воспоминании.
В: Psychological Bulletin, Vol. 83(6)
Согласные пары:
Ф. Б. Бейкер и Л. Дж. Хьюберт
Измерение возможностей иерархического кластерного анализа
В: Journal of the American Statistical Association, 70(349)
Ф. Дж. Рольф
Методы сравнения классификаций
В: Ежегодный обзор экологии и систематики
Дэвис-Булдин:
Д. Л. Дэвис и Д. В. Булдин
Мера разделения кластеров
В: IEEE Transactions Pattern Analysis and Machine Intelligence PAMI-1(2)
ПБМ:
М. К. Пахира, С. Бандйопадхьяй и У. Маулик
Индекс достоверности для четких и нечетких кластеров
В: Распознавание образов, 37(3)
Критерии коэффициента дисперсии:
Р. Б. Калински и Дж. Харабаш
Дендритный метод для кластерного анализа
In: Communications in Statistics-theory and Methods, 3(1)
У нас также есть DBCV, но код еще не проверен и не объединен.
Моя личная рекомендация — использовать скорректированный индекс Rand из-за хорошей поправки на случайность. ARI меньше 0 означает, что результат хуже случайного. Практически при любом другом показателе даже случайный результат будет положительным.
person
Erich Schubert
schedule
07.04.2016
BCubed
имеет ссылку на показатели B²: dx.doi.org/10.3115/980451.980859 ... не ждите, что все будет на первой странице. - person Has QUIT--Anony-Mousse   schedule 06.04.2016