Что на самом деле представляет собой eps в DBSCAN?

Предположим, что я уже нашел eps для всех плотностей. Я применил методологию отсюда http://ijiset.com/v1s4/IJISET_V1_I4_48.pdf

Если вы не возражаете, откройте страницу 5 и посмотрите раздел «Предлагаемый алгоритм». На шаге 10.1 в документе нам предлагается подсчитать количество объектов в eps-окрестности.

Что на самом деле представляет eps? Это радиус, чтобы нарисовать круг, верно? Итак, почему радиус такой маленький, меньше расстояния между двумя объектами? Если это так, MinPts всегда будет равен 0.


person mdominic    schedule 27.04.2015    source источник


Ответы (2)


Да, если используется с евклидовым расстоянием, то это радиус.

Оно не бесконечно мало (не стремится к 0). Он просто должен быть небольшим по сравнению с расширением набора данных, но авторы могли бы вместо этого назвать его «r».

Используйте оригинальную статью, чтобы понять алгоритм, а не какой-то его вариант из индийского журнала.

person Has QUIT--Anony-Mousse    schedule 27.04.2015
comment
тогда какую бумагу вы предлагаете? Я искал до сих пор, я думаю, более 5 статей, но все равно получаю тот же вопрос - person mdominic; 27.04.2015
comment
Ссылка 1 в документе, на который вы ссылаетесь. Эстер, Кригель, Сандер, Сюй, КДД 1 996 - person Has QUIT--Anony-Mousse; 27.04.2015
comment
Теперь я понимаю, но здесь небольшая проблема. Почему Weka принимает очень маленькое значение eps? В исходной статье предлагается использовать значение k-dist(p), которое является «большим», поскольку расстояние между точками больше, чем eps. И что я должен делать? - person mdominic; 04.05.2015
comment
Weka хороша для классификации, но не используйте ее для кластеризации. Но я должен не согласиться: значение по умолчанию 0,9 не очень мало, в частности, поскольку оно использует расстояния после масштабирования каждого атрибута до [0:1]. Для одномерных данных 0,9 будет примерно 90% вашего набора данных, что слишком много. Но явно не должно быть значения по умолчанию для этого параметра вообще. - person Has QUIT--Anony-Mousse; 04.05.2015
comment
В основном я использую ELKI для кластеризации, потому что это быстро; а для многих алгоритмов вообще нет другого инструмента, имеющего работающую реализацию. Жаль, что в нем нет классификации, но, к счастью, я не часто нуждаюсь в классификации. Я бы хотел увидеть ELKI с классификацией. - person Has QUIT--Anony-Mousse; 04.05.2015

В евклидовом расстоянии это радиус. Выбор Eps немного сложнее.

Эта проблема связана с выбором модели, т. е. с выбором конкретной модели и ее соответствующей параметризацией. В случае k-средних (которые требуют от пользователя количества кластеров в качестве входных данных) в литературе имеется множество мер, которые могут помочь в выборе наилучшего количества кластеров, например: силуэт, c-индекс , Данн, Дэвис-Булдин. Эти меры являются так называемыми критериями относительной валидности.

В случае алгоритмов кластеризации на основе плотности также есть некоторые меры, например: CDbw и DBCV.

person Satyam    schedule 09.04.2018