Я пытался сгруппировать набор текстовых документов. У меня есть разреженная матрица TFIDF с примерно 10 тыс. документов (подмножество большого набора данных), и я пытаюсь запустить алгоритм k-средних scikit-learn с разными размерами кластеров (10,50,100). Остальные все параметры являются значениями по умолчанию.
Я получаю очень странное поведение, что независимо от того, сколько кластеров я укажу или даже если я изменю количество итераций, в лоте будет 1 кластер, который будет содержать большую часть документов в себе, и будет много кластеров, которые будут иметь всего 1 документ в них. Это очень неоднородное поведение
Кто-нибудь знает, с какой проблемой я сталкиваюсь?