Как вычислить логарифмическую вероятность модели LDA в vowpal wabbit

Я типичный, обычный, повседневный пользователь R. В R есть очень полезный lda.collapsed.gibbs.sampler в пакете lda, который использует свернутый сэмплер Гиббса для соответствия модели скрытого распределения Дирихле (LDA) и возвращает точечные оценки скрытых параметров с использованием состояния на последней итерации выборки Гиббса.

Эта функция также имеет отличный параметр compute.log.likelihood, который, если он установлен в TRUE, заставит сэмплер вычислять логарифмическую вероятность слов (с точностью до постоянного множителя) после каждого прохода по переменным. Это полезно для оценки конвергенции и сравнения различных моделей LDA (рассчитанных для разного количества тем).

Мне интересно, есть ли такая опция в модели LDA vowpal_wabbit?


person Marcin Kosiński    schedule 22.07.2015    source источник


Ответы (1)


При запуске vw -h --lda 1 справка предлагает следующие параметры. Параметр metrics по умолчанию отключен. Он используется для вычисления когерентности темы, которая реализована здесь.. Попробуйте включить эту функцию, передав --metrics 1

Latent Dirichlet Allocation:
  --lda arg                             Run lda with <int> topics

  --lda_alpha arg (=0.100000001)        Prior on sparsity of per-document topic
                                        weights
  --lda_rho arg (=0.100000001)          Prior on sparsity of topic 
                                        distributions
  --lda_D arg (=10000)                  Number of documents
  --lda_epsilon arg (=0.00100000005)    Loop convergence threshold
  --minibatch arg (=1)                  Minibatch size, for LDA
  --math-mode arg (=0)                  Math mode: simd, accuracy, fast-approx
  --metrics arg (=0)                    Compute metrics

Или сразу перейдите к person J.Schneider    schedule 04.05.2021