Оценка релевантности документа на основе тематического моделирования

В настоящее время у меня есть обученная тематическая модель с использованием MALLET (http://mallet.cs.umass.edu/topics.php), который основан на собрании около 80 000 новостных статей (все эти статьи относятся к одной категории).

Я хочу давать оценку релевантности каждый раз, когда появляется новая статья (может быть или не быть связана с категорией). Есть ли способ добиться этого? Я читал о td-idf, но кажется, что он дает оценку на основе существующих статей, а не новых поступающих. Конечная цель — отфильтровать статьи, которые могут быть неактуальны.

Любые идеи или помощь приветствуются. Благодарю вас!


person KillerKidz    schedule 23.07.2018    source источник


Ответы (1)


После того, как у вас есть модель (темы), вы можете протестировать новые невидимые документы в соответствии с документацией (параметр --evaluator-filename [FILENAME] — это место, куда вы передаете новые невидимые документы) Вероятность задержки темы:

Тема Вероятность ожидания

--evaluator-filename [FILENAME] В предыдущем разделе описано, как получить пропорции тем для новых документов. Мы часто хотим оценить логарифмическую вероятность появления новых документов, маргинализированных по всем конфигурациям тем. Используйте команду MALLET bin/mallet Evaluate-topics --help, чтобы получить информацию об использовании оценки вероятностей с задержкой. Как и в случае вывода темы, вы должны убедиться, что новые данные совместимы с вашими обучающими данными. Используйте опцию --use-pipe-from [MALLET TRAINING FILE] в команде MALLET bin/mallet import-file или import-dir, чтобы указать обучающий файл.

Примечание. Я использовал больше gensim LDA и LSI, и вы можете передать новые документы следующим образом:

new_doc = "Human computer interaction"
new_vec = dictionary.doc2bow(new_doc.lower().split())
print(lda_model[new_vec])

#output: [(0, 0.020229542), (1, 0.49642297)

Интерпретация: вы можете видеть (1, 0,49642297), что означает, что из двух тем (категорий), которые у нас есть, новый документ близко представлен темой № 1. Таким образом, в вашем случае вы можете взять максимум из списка вывода, и у вас есть коэффициент релевантности, поэтому высокий коэффициент будет в категории, а низкий нет (добавлено 2 темы в соответствии с лучшей визуализацией и в вашем случае, если у вас есть только тема № 1, чем просто добавить простой порог минимума, который вы хотите учитывать, и если он выше, например, 0,40, чем в категории, иначе нет).

person n1tk    schedule 23.07.2018