У меня есть следующая команда mallet (для версии 2.0.8 (3 мая 2016 г.)) в Linux 2.6.32-696.18.7.el6.x86_6 и среде выполнения Java SE (сборка 1.7.0_05-b06):
bin/mallet train-topics --input html/$1/topic --num-topics $1 \
--output-doc-topics result \
--output-topic-docs top.gz
--optimize-interval 10 \
--num-threads 20 \
--output-topic-keys keys.txt \
--optimize-interval 10
но после 1000 итераций я получаю только этот вывод:
<1000> LL/token: -8.98037 Total time: 1 hours 47 minutes 18 seconds Exception in thread "main" java.lang.ClassCastException: java.net.URI cannot be cast to java.lang.String at cc.mallet.topics.ParallelTopicModel.printTopicDocuments(ParallelTopicModel.java:1773) at cc.mallet.topics.tui.TopicTrainer.main(TopicTrainer.java:281)Any suggestions for how to what this means or how to avoid the problem? Is there a way to proceed?
Дэниел Финберг NBER