K-средние с косинусным расстоянием

Мне нужно написать программу для этого кластера, используя k-средства. У меня есть TF-IDF, а также косинусное сходство, которое выглядит так

1.00    0.17    0.46    0.40    0.89
0.17    1.00    0.83    0.60    0.58
0.46    0.83    1.00    0.30    0.67
0.40    0.60    0.30    1.00    0.73
0.89    0.58    0.67    0.73    1.00

У меня есть вывод для 2-средних, он входит в две группы с первыми центроидами: D1 и D2, потому что их сходство самое низкое (0,17), поэтому группы {D1, D5} и {D2, D3, D4}, но что, если Пришлось выбирать 3-значит? Как мне выбрать начальные центроиды?

И еще я не понимаю, я беру свой TF-IDFS, который у меня есть, следующим образом:

0.2 0.4 0.8 0.0 0.2
0.0 0.4 0.2 0.8 0.2
0.8 0.0 0.2 0.4 0.4

и сделать новые центроиды для моих групп

Группа 1: Т1- 0,2 Т2- 0,1 Т3- 0,6 Группа 2: Т1- 0,4 Т2- 0,4(6) Т3-0,2

И что теперь мне делать, чтобы снова назначить мои документы новым центроидам? Должен ли я теперь вычислять косинус между моими центроидами и документами? И выше ли значение cos, чтобы центроид группы я его там ставил?


person user2141889    schedule 04.01.2014    source источник


Ответы (2)


Серьезно, вы путаете вещи.

Для k-средних вам не нужна таблица попарного сходства. Он никогда не сравнивает два объекта!

Также просмотрите множество вопросов о k-средних, в частности, почему опасно использовать другие расстояния в k-средних, чем квадрат евклидова расстояния (поскольку среднее может не подходить для других функций расстояния). Хотя я считаю, что можно показать, что при достаточно удобных условиях он также будет работать для косинусного расстояния, я еще не видел доказательства того, почему и когда он гарантированно сходится. Известное мне доказательство справедливо только для (квадрата) евклидова расстояния.)

person Has QUIT--Anony-Mousse    schedule 05.01.2014
comment
Что вы имеете в виду, говоря, что среднее значение может не подходить для других расстояний? - person curious; 07.01.2014
comment
Посмотрите на определение дисперсии. Среднее арифметическое является оптимальной оценкой среднего по методу наименьших квадратов. Базовые знания статистики должны быть описаны в любой книге по оценке. - person Has QUIT--Anony-Mousse; 07.01.2014
comment
Проще говоря: если среднее значение равно 0, косинусное расстояние больше не определяется. - person Has QUIT--Anony-Mousse; 08.01.2014

D1 и D2 группируются, потому что их сходство самое высокое и расстояние самое низкое. Не малое сходство.

Ваш первоначальный выбор центроидов такой же, как и в случае с двумя центроидами. Верно? что ты там делал? Вы используете 3 случайных вектора или выбираете 3 точки данных в качестве исходных центроидов.

Ваша вторая часть не имеет смысла. Вы назначаете новые документы, назначая их ближайшему кластеру. Вы можете, если хотите, продолжить итерацию оттуда.

person Sean Owen    schedule 04.01.2014