K-средние с косинусным расстоянием

Мне нужно написать программу для этого кластера, используя k-средства. У меня есть TF-IDF, а также косинусное сходство, которое выглядит так

1.00    0.17    0.46    0.40    0.89
0.17    1.00    0.83    0.60    0.58
0.46    0.83    1.00    0.30    0.67
0.40    0.60    0.30    1.00    0.73
0.89    0.58    0.67    0.73    1.00

У меня есть вывод для 2-средних, он входит в две группы с первыми центроидами: D1 и D2, потому что их сходство самое низкое (0,17), поэтому группы {D1, D5} и {D2, D3, D4}, но что, если Пришлось выбирать 3-значит? Как мне выбрать начальные центроиды?

И еще я не понимаю, я беру свой TF-IDFS, который у меня есть, следующим образом:

0.2 0.4 0.8 0.0 0.2
0.0 0.4 0.2 0.8 0.2
0.8 0.0 0.2 0.4 0.4

и сделать новые центроиды для моих групп

Группа 1: Т1- 0,2 Т2- 0,1 Т3- 0,6 Группа 2: Т1- 0,4 Т2- 0,4(6) Т3-0,2

И что теперь мне делать, чтобы снова назначить мои документы новым центроидам? Должен ли я теперь вычислять косинус между моими центроидами и документами? И выше ли значение cos, чтобы центроид группы я его там ставил?

user2141889 04.01.2014 источник

Ответы (2)

arrow_upward
2
arrow_downward

Серьезно, вы путаете вещи.

Для k-средних вам не нужна таблица попарного сходства. Он никогда не сравнивает два объекта!

Также просмотрите множество вопросов о k-средних, в частности, почему опасно использовать другие расстояния в k-средних, чем квадрат евклидова расстояния (поскольку среднее может не подходить для других функций расстояния). Хотя я считаю, что можно показать, что при достаточно удобных условиях он также будет работать для косинусного расстояния, я еще не видел доказательства того, почему и когда он гарантированно сходится. Известное мне доказательство справедливо только для (квадрата) евклидова расстояния.)

Has QUIT--Anony-Mousse 05.01.2014

comment

Что вы имеете в виду, говоря, что среднее значение может не подходить для других расстояний? - curious; 07.01.2014

comment

Посмотрите на определение дисперсии. Среднее арифметическое является оптимальной оценкой среднего по методу наименьших квадратов. Базовые знания статистики должны быть описаны в любой книге по оценке. - Has QUIT--Anony-Mousse; 07.01.2014

comment

Проще говоря: если среднее значение равно 0, косинусное расстояние больше не определяется. - Has QUIT--Anony-Mousse; 08.01.2014

arrow_upward
1
arrow_downward

D1 и D2 группируются, потому что их сходство самое высокое и расстояние самое низкое. Не малое сходство.

Ваш первоначальный выбор центроидов такой же, как и в случае с двумя центроидами. Верно? что ты там делал? Вы используете 3 случайных вектора или выбираете 3 точки данных в качестве исходных центроидов.

Ваша вторая часть не имеет смысла. Вы назначаете новые документы, назначая их ближайшему кластеру. Вы можете, если хотите, продолжить итерацию оттуда.

Sean Owen 04.01.2014

K-средние с косинусным расстоянием

Ответы (2)

Похожие вопросы