Использование предустановленных тем в Mallet

Я хочу использовать Mallet для классификации различных документов по темам, которые я определил. Я знаю, что Маллет сначала определит темы, а затем классифицирует документы, но я хочу пропустить первый шаг, потому что у меня уже есть список тем со связанными с ними словами. Есть ли способ использовать предварительно определенные списки тем, которые я создал, для классификации документов с помощью Mallet?

Любое руководство приветствуется. Спасибо!


person NLP    schedule 18.10.2014    source источник


Ответы (1)


Если вы занимаетесь неконтролируемым обучением (без обучающих примеров, то есть документов по каждой теме), вы не можете просто задать темы. Дело в том, что обучающий алгоритм ничего не знает о документах заранее. Он просто пытается разделить/распределить их на основе предоставляемых вами функций.

Если вы занимаетесь контролируемым обучением, темы на самом деле являются классами, и у вас есть документы для каждого класса. Затем алгоритм пытается узнать, какие признаки важны для каждого класса. В mallet вы должны использовать модуль Classification.

Вероятно, есть некоторые причудливые идеи моделирования темы, которые включают / искажают распределение тем в соответствии с определенными ключевыми словами, но я не думаю, что это возможно с Маллетом.

person Yasen    schedule 20.10.2014