Какую процедуру или алгоритм следует использовать для предоставления параметров eps и minPts алгоритму DBSCAN для получения эффективных результатов?
Как выбрать eps и minPts (два параметра для алгоритма DBSCAN) для получения эффективных результатов?
Ответы (1)
В документе DBSCAN предлагается выбирать minPts на основе размерности, а eps на основе изгиба на графике k-расстояний.
В более поздней публикации
Шуберт, Э., Сандер, Дж., Эстер, М., Кригель, Х. П., и Сюй, X. (2017).
Повторное посещение DBSCAN, повторное посещение: почему и как следует (по-прежнему) использовать DBSCAN.
Транзакции ACM в системах баз данных (TODS), 42 (3), 19.
авторы предлагают использовать более крупные minpts для больших и зашумленных наборов данных и настраивать эпсилон в зависимости от того, получаете ли вы слишком большие кластеры (уменьшайте эпсилон) или слишком много шума (увеличьте эпсилон). Кластеризация требует итераций.
Этот документ было интересно прочитать, потому что он показывает, что может пойти не так, если вы не посмотрите на свои данные. Люди слишком зациклены на показателях производительности и забывают смотреть на реальные данные.