Я новичок в тематическом моделировании и пытаюсь использовать библиотеку Mallet, но у меня есть вопрос.
Я использую простую параллельную многопоточную реализацию LDA, чтобы найти темы для некоторых экземпляров. Мой вопрос: что такое функция оценки в ParallelTopicModel?
У меня есть поиск в API, но у них нет описания. Также я прочитал это руководство.
Кто-нибудь может объяснить, что это за функция?
ИЗМЕНИТЬ
Это пример моего кода:
public void runModel(Sting [] str){
ParallelTopicModel model = new ParallelTopicModel(numTopics);
ArrayList<Pipe> pipeList = new ArrayList<Pipe>();
// Pipes: lowercase, tokenize, remove stopwords, map to features
pipeList.add(new CharSequenceLowercase());
pipeList.add(new CharSequence2TokenSequence(Pattern.compile("\\p{L}[\\p{L}\\p{P}]+\\p{L}")));
pipeList.add(new TokenSequence2FeatureSequence());
InstanceList instances = new InstanceList(new SerialPipes(pipeList));
instances.addThruPipe(new StringArrayIterator(str));
model.addInstances(instances);
model.setNumThreads(THREADS);
model.setOptimizeInterval(optimizeation);
model.setBurninPeriod(burninInterval);
model.setNumIterations(numIterations);
// model.estimate();
}
\p{L}
(строчные символы) является подмножеством\p{P}
(печатаемые символы), поэтому[\p{L}]p{P}]
совпадает с\p{P}
. Во-вторых, если все ваши символы доступны для печати, вы получаете только один токен на документ (он начинается с первой строчной буквы и заканчивается последней). - person drevicko   schedule 19.11.2014