Что означает число, стоящее за каждым словом в словах темы модели LDA?

Когда мы обучаем модель с использованием модели LDA, мы получаем набор общих тем, которые относятся к модели LDA. Каждое слово в теме имеет число за ним. пример

topic - 0.004*great + 0.004*good + 0.004*like + 0.003*well + 0.003*best + 0.003*better 

Каково значение этого числа?


person Nipun Alahakoon    schedule 20.11.2014    source источник


Ответы (1)


Цифры - это вероятности. Большее число указывает на более высокую вероятность того, что слово будет выбрано после выбора темы в процессе генерации текстов.

Если вы используете свою модель LDA для создания текста, она бросит кубик и выберет распределение тем (набор чисел, похожих на те, что указаны в вашем сообщении, которые определяют вероятность появления темы в тексте). Затем он бросит кубик, чтобы выбрать одну из тем из раздачи, а затем бросит другой кубик, чтобы выбрать слово из этой темы. Последние два шага повторяются для каждого слова в документе.

В большинстве случаев модель используется в обратном порядке - просматривая существующие тексты, вы пытаетесь найти параметры, которые позволяют создать модель, которая подходит для создания текстов, которые у вас есть.

person MrFancypants    schedule 06.12.2014