У меня есть список документов и оценка tf-idf для каждого уникального слова во всем корпусе. Как мне визуализировать это на 2-мерном графике, чтобы оценить, сколько кластеров мне понадобится для запуска k-средних?
Вот мой код:
sentence_list=["Hi how are you", "Good morning" ...]
vectorizer=TfidfVectorizer(min_df=1, stop_words='english', decode_error='ignore')
vectorized=vectorizer.fit_transform(sentence_list)
num_samples, num_features=vectorized.shape
print "num_samples: %d, num_features: %d" %(num_samples,num_features)
num_clusters=10
Как видите, я могу преобразовать свои предложения в матрицу документа tf-idf. Но я не уверен, как построить точки данных для оценки tf-idf.
Я думал:
- Добавьте больше переменных, таких как длина документа и что-то еще
- сделать PCA, чтобы получить 2 измерения
Спасибо