Как выбрать eps и minPts (два параметра для алгоритма DBSCAN) для получения эффективных результатов?

Какую процедуру или алгоритм следует использовать для предоставления параметров eps и minPts алгоритму DBSCAN для получения эффективных результатов?


person Francesco    schedule 28.11.2017    source источник
comment
Определить эффективный   -  person MechMK1    schedule 28.11.2017


Ответы (1)


В документе DBSCAN предлагается выбирать minPts на основе размерности, а eps на основе изгиба на графике k-расстояний.

В более поздней публикации

Шуберт, Э., Сандер, Дж., Эстер, М., Кригель, Х. П., и Сюй, X. (2017).
Повторное посещение DBSCAN, повторное посещение: почему и как следует (по-прежнему) использовать DBSCAN.
Транзакции ACM в системах баз данных (TODS), 42 (3), 19.

авторы предлагают использовать более крупные minpts для больших и зашумленных наборов данных и настраивать эпсилон в зависимости от того, получаете ли вы слишком большие кластеры (уменьшайте эпсилон) или слишком много шума (увеличьте эпсилон). Кластеризация требует итераций.

Этот документ было интересно прочитать, потому что он показывает, что может пойти не так, если вы не посмотрите на свои данные. Люди слишком зациклены на показателях производительности и забывают смотреть на реальные данные.

person Has QUIT--Anony-Mousse    schedule 28.11.2017