MALLET Ранжирование слов в теме

Я относительно новичок в маллете, и мне нужно знать: - слова в каждой теме, которую молоток производит, упорядочены каким-то образом? - если да, то каков порядок (т.е.) 1-й в списке тем тот, который имеет наибольшее распространение по корпусу?

Спасибо!


person codemasterg    schedule 22.06.2014    source источник
comment
Не могли бы вы поделиться фрагментом кода Java, чтобы получить пропорции слов для определенной темы?   -  person London guy    schedule 15.01.2015


Ответы (1)


они ранжируются на основе вероятностей из обучения, т. е. первое слово наиболее вероятно появится в этой теме, 2-е менее вероятно, 3-е менее вероятно и т. д. самые высокие веса tfidf, скорее всего, будут наиболее вероятными. Кроме того, выборка Гиббса во многом связана с тем, как слова ранжируются в темах — из-за случайности в выборке вы можете получить совершенно разные вероятности для слов в темах. Попробуйте, например, сохранить модель, а затем переобучить с помощью параметра --input-model — темы будут очень похожи, но не одинаковы.

Тем не менее, если вам нужно увидеть фактические веса терминов в корпусе, не связанных с LDA, вы можете использовать что-то вроде NLTK в Python для проверки частотных распределений, а также что-то вроде sklearn для TFIDF, чтобы получить более значимые распределения весов.

person Everst    schedule 23.06.2014