Плотность и пороговая кластеризация в dbscan

Я работаю над некоторыми данными о температуре промышленных деталей. У меня есть попиксельная температура части со значениями температуры. Я хочу использовать dbscan для идентификации частей, которые имеют кластеры пикселей в каждой части, где все точки в кластере превышают пороговую температуру. Я пытался использовать dbscan, но не знаю, как определить, используя как пороговую температуру, так и размер кластера в качестве условий.

Я попытался изолировать только точки, которые пересекают порог (230), и попытаться увидеть, превышает ли этот кластер определенный размер. Код ниже: c(1,3) — это значения x, y температуры, а v — температура.

new<-sub%>%filter(sub$v>230)%>% as.data.frame(.)
db <- fpc::dbscan(new[,c(1,3)], eps =3, MinPts = 10)
plot(db, new[,c(1,3)], main = "DBSCAN", frame = FALSE)

полная визуальная часть: полная визуальная часть

dbscan вывод после фильтрации по пороговой температуре":

вывод dbscan


person Karthik Sundar    schedule 02.04.2019    source источник
comment
После этого он будет работать, даже если отфильтрованные данные части (> 230) будут проверены, чтобы увидеть, существует ли хотя бы один кластер с минимальным присутствием 10x10 пикселей, отвечающим критериям (> 230 C).   -  person Karthik Sundar    schedule 02.04.2019


Ответы (1)


Никогда не используйте пакет fpc. Вместо этого используйте dbscan!

Я не уверен, что DBSCAN подходит для ваших задач, потому что ниже вы говорите о регионах 10x10. Для этого стандартная свертка была бы гораздо более подходящей...

Но помимо этого DBSCAN может работать на вас, при условии, что вы правильно выбираете атрибуты (n, m, f, c? Что это все?) и параметры (минимальные точки радиуса). Может быть, ваш эпсилон был слишком маленьким?

person Has QUIT--Anony-Mousse    schedule 02.04.2019
comment
n, m, f, c это параметры для dbscan или это вопрос ко мне? - person Karthik Sundar; 03.04.2019
comment
Это вопрос к вам. Они есть на ваших участках. - person Has QUIT--Anony-Mousse; 03.04.2019
comment
f — номер строки, а c — номер столбца: это было в подмножестве данных части выше определенного порога. n — это строка, а m — столбец: это было основное значение k для всей части. - person Karthik Sundar; 03.04.2019