Мне нужно написать программу для этого кластера, используя k-средства. У меня есть TF-IDF, а также косинусное сходство, которое выглядит так
1.00 0.17 0.46 0.40 0.89
0.17 1.00 0.83 0.60 0.58
0.46 0.83 1.00 0.30 0.67
0.40 0.60 0.30 1.00 0.73
0.89 0.58 0.67 0.73 1.00
У меня есть вывод для 2-средних, он входит в две группы с первыми центроидами: D1 и D2, потому что их сходство самое низкое (0,17), поэтому группы {D1, D5} и {D2, D3, D4}, но что, если Пришлось выбирать 3-значит? Как мне выбрать начальные центроиды?
И еще я не понимаю, я беру свой TF-IDFS, который у меня есть, следующим образом:
0.2 0.4 0.8 0.0 0.2
0.0 0.4 0.2 0.8 0.2
0.8 0.0 0.2 0.4 0.4
и сделать новые центроиды для моих групп
Группа 1: Т1- 0,2 Т2- 0,1 Т3- 0,6 Группа 2: Т1- 0,4 Т2- 0,4(6) Т3-0,2
И что теперь мне делать, чтобы снова назначить мои документы новым центроидам? Должен ли я теперь вычислять косинус между моими центроидами и документами? И выше ли значение cos, чтобы центроид группы я его там ставил?