MinPts
Как объяснил Anony-Mousse, «низкий minPts означает, что он будет создавать больше кластеров из шума, поэтому не выберите его слишком маленьким. '.
minPts лучше всего настраивает эксперт в предметной области, который хорошо разбирается в данных. К сожалению, во многих случаях мы не знаем знания предметной области, особенно после нормализации данных. Один из эвристических подходов - использовать ln (n), где n - это общее количество точек, подлежащих кластеризации.
эпсилон
Определить его можно несколькими способами:
1) график k-расстояний
В кластеризации с minPts = k мы ожидаем, что точки ядра и k-расстояние между граничными точками находятся в пределах определенного диапазона, в то время как точки шума могут иметь гораздо большее k-расстояние, поэтому мы можем наблюдать изгиб точка на графике расстояния k. Однако иногда может не быть очевидного колена или может быть несколько колен, что затрудняет принятие решения ![](https://i.stack.imgur.com/ofiEK.png)
2) расширения DBSCAN, такие как OPTICS.
OPTICS создает иерархические кластеры, мы можем извлекать значительные плоские кластеры из иерархических кластеров путем визуального осмотра, реализация OPTICS доступна в модуле Python pyclustering. Один из первоначальных авторов DBSCAN и OPTICS также предложил автоматический способ извлечения плоских кластеров, при котором не требуется вмешательства человека. Для получения дополнительной информации вы можете прочитать этот документ.
3) анализ чувствительности
В основном мы хотим выбрать радиус, который может кластеризовать более правильные точки (точки, похожие на другие точки), и в то же время обнаруживать больше шума (точки с выбросами). Мы можем нарисовать процент регулярных точек (точки принадлежат кластеру) VS. Анализ epsilon, где мы устанавливаем различные значения epsilon в качестве оси x и соответствующий процент регулярных точек в качестве оси y, и, надеюсь, мы сможем определить сегмент, в котором процентное значение обычных точек больше чувствительны к значению epsilon, и мы выбираем значение epsilon верхней границы в качестве оптимального параметра.
person
Shawn TIAN
schedule
01.02.2018