Для проекта, над которым я сейчас работаю, мне нужно сгруппировать относительно большое количество пар GPS в разные кластеры местоположения. После прочтения множества сообщений и предложений здесь, в StackOverflow и использования разных подходов, у меня все еще есть проблема с его запуском ...
Размер набора данных: чуть более 200 тысяч пар GPS-координат.
[[108.67235 22.38068 ]
[110.579506 16.173908]
[111.34595 23.1978 ]
...
[118.50778 23.03158 ]
[118.79726 23.83771 ]
[123.088512 21.478443]]
Испробованные методы: 1. Пакет HDBSCAN
coordinates = df5.values
print(coordinates)
clusterer = hdbscan.HDBSCAN(metric='haversine', min_cluster_size=15)
clusterer.fit(coordinates)
DBSCAN min_samples = 15, метрика = гаверсинус, алгоритм = 'мяч_дерево'
По совету Anony-Mousse я тоже попробовал ELKI.
И все эти методы дали мне одну и ту же ошибку памяти
Я прочитал эти сообщения: DBSCAN для кластеризации данных о географическом местоположении Кластеризация 500 000 геопространственных точек в Python
Все эти сообщения предполагали, что размер набора данных не должен быть проблемой. Однако почему-то я продолжал получать сообщение об ошибке. Прошу прощения, если это окажется простым ответом. Это из-за настроек? или просто потому, что я запускаю его на своем ноутбуке с памятью 16 ГБ ...?