Конкретного ответа нигде не нашел. Однако, поскольку в документации sample.sh
указано
The code creates at least the following files:
- topic-???-var-e-log-prob.dat: the e-betas (word distributions) for topic ??? for all times.
...
- gam.dat
без упоминания файла topic-000-var-obs.dat
предполагает, что это не является обязательным для большинства анализов.
Спекуляция
obs
предложить наблюдения. Немного покопавшись в результатах example/model_run
, я построил сумму по эпохам для каждого слова/токена, используя:
temp = scan("dtm/example/model_run/lda-seq/topic-000-var-obs.dat")
temp.matrix = matrix(temp, ncol = 10, byrow = TRUE)
plot(rowSums(temp.matrix))
и результат примерно такой:
Общая тенденция неотрицательных значений уменьшается, и многие значения достигают нижнего предела (в данном случае до -11.00972 = log(1.67e-05)
). Это позволяет предположить, что эти значения являются весовыми коэффициентами или какой-либо другой мерой влияния на модель. Модель удаляет некоторые токены, а влияние/важность других уменьшается по индексу. Более поздняя тенденция может быть вызвана предварительной обработкой, такой как сортировка токенов по tf-idf при создании словаря.
Интересно, что значения суммы строк различаются как для токенов с минимальным значением, так и для набора с более положительными значениями:
temp = scan("~/Documents/Python/inference/project/dtm/example/model_run/lda-seq/topic-009-var-obs.dat")
temp.matrix = matrix(temp, ncol = 10, byrow = TRUE)
plot(rowSums(temp.matrix))
person
vincentmajor
schedule
16.02.2017