Я пытаюсь сгруппировать поток Twitter. Я хочу поместить каждый твит в группу, посвященную одной и той же теме. Я попытался кластеризовать поток, используя онлайн-алгоритм кластеризации с tf/idf и косинусным сходством, но обнаружил, что результаты довольно плохие.
Основным недостатком использования tf/idf является то, что он группирует документы, похожие по ключевым словам, поэтому полезно идентифицировать только почти идентичные документы. Например, рассмотрим следующие предложения:
1- Веб-сайт Stackoverflow — хорошее место. 2- Stackoverflow — это веб-сайт.
Предыдущие два предложения, скорее всего, будут сгруппированы вместе с разумным пороговым значением, поскольку они имеют много общих ключевых слов. Но теперь рассмотрим следующие два предложения:
1- Веб-сайт Stackoverflow — хорошее место. 2- Я регулярно посещаю Stackoverflow.
Теперь при использовании tf/idf алгоритм кластеризации с треском провалится, потому что они используют только одно ключевое слово, даже если они оба говорят об одной и той же теме.
Мой вопрос: есть ли лучшие методы кластеризации документов?