Как выбрать начальные кластеры для K-среднего из векторов Tf-IDF

Я работаю с кластеризацией текста. Я хочу выбрать определенные документы (как вектор) в качестве centroID для k-средних.

Я создал TF-IDF для своего набора данных с помощью Mahout, и я хотел бы выбрать начальные кластеры из векторов TFIDF.

У кого-нибудь есть идея, как я могу указать начальные центроиды в Mahout?


person Darsh    schedule 17.11.2014    source источник
comment
В Mahout есть встроенная функция выбора центроидов, не так ли?   -  person Has QUIT--Anony-Mousse    schedule 17.11.2014
comment
Да, Mahout может выбирать центроид случайным образом или с помощью Canopy, но я хотел бы выбрать их вручную.   -  person Darsh    schedule 17.11.2014
comment
Также есть возможность указать их вручную.   -  person Has QUIT--Anony-Mousse    schedule 18.11.2014


Ответы (2)


bin / mahout kmeans
-c каталог входных кластеров
-k необязательное количество исходных кластеров для выборки из входных векторов

Если указан аргумент -k, любые кластеры в каталоге -c будут перезаписаны, и -k случайные точки будут отбираться из входных векторов, чтобы стать начальными центрами кластеров.

Ссылка: https://mahout.apache.org/users/clustering/k-means-clustering.html

person Rajkumar    schedule 18.11.2014

Одна из возможностей - использовать косинусное сходство вместо TF-IDF, просматривая наиболее удаленные документы подальше друг от друга. Что-то вроде этого:

  1. Выберите документ 1.
  2. Выберите самый дальний документ 2 от документа 1.
  3. Выберите самый дальний документ из документов 1 и 2.
  4. и т.д

Также может помочь this.

person Felipe Martins Melo    schedule 23.04.2015