В настоящее время у меня есть обученная тематическая модель с использованием MALLET (http://mallet.cs.umass.edu/topics.php), который основан на собрании около 80 000 новостных статей (все эти статьи относятся к одной категории).
Я хочу давать оценку релевантности каждый раз, когда появляется новая статья (может быть или не быть связана с категорией). Есть ли способ добиться этого? Я читал о td-idf, но кажется, что он дает оценку на основе существующих статей, а не новых поступающих. Конечная цель — отфильтровать статьи, которые могут быть неактуальны.
Любые идеи или помощь приветствуются. Благодарю вас!