Вопросы по теме 'lda'

Mahout LDA выдает исключение FileNotFound
Я создал свои векторы терминов, как указано здесь , вот так: ~/Scripts/Mahout/trunk/bin/mahout seqdirectory --input /home/ben/Scripts/eipi/files --output /home/ben/Scripts/eipi/mahout_out -chunk 1 ~/Scripts/Mahout/trunk/bin/mahout seq2sparse -i...
708 просмотров
schedule 23.07.2022

LDA и тематическая модель
Я изучал модель LDA и тему в течение нескольких недель, но из-за моих слабых математических способностей я не могу полностью понять ее внутренние алгоритмы. Я использовал реализацию GibbsLDA, ввел много документов и установил номер темы как 100, я...
2034 просмотров
schedule 28.10.2023

Почему Stanford Topic Modeling Toolbox не создает каталог lda-output?
Я попытался запустить этот код из github (следуя шагам 1-2-3), который определяет 30 тем в 14 500 электронных письмах Сары Пэйлин. Темы, обнаруженные автором, находятся здесь . Однако Stanford Topic Modeling Toolbox не создает для меня каталог...
1375 просмотров

Список стоп-слов для НЛП
Есть ли список стоп-слов, которые люди обычно используют для удаления знаков препинания и закрывающих классных слов (например, he, she, it ) при выполнении задач, связанных с НЛП или IR / IE? Я пробовал моделировать темы с использованием выборки...
4342 просмотров

Вывод динамической тематической модели - формат Blei
Я работаю с пакетом Dynamic Topic Models, разработанным Blei. Я новичок в LDA, однако я это понимаю. Я хотел бы знать, что хранит вывод по имени lda-seq/topic-000-var-obs.dat ? Я знаю, что lda-seq/topic-001-var-e-log-prob.dat хранит журнал...
605 просмотров
schedule 16.06.2022

Bakeoff Часть 1 Python vs Cython vs Cython Типизированные представления памяти: LDA by Gibbs Sampling
Обновление: Memory Views побеждает. Cython использует типизированные memoryviews: 0,0253449 Особая благодарность lothario, который указал на несколько критических изменений. Смешной. Конечно, теперь проблема в том , что с ними не так много...
1167 просмотров
schedule 23.02.2022

MALLET Ранжирование слов в теме
Я относительно новичок в маллете, и мне нужно знать: - слова в каждой теме, которую молоток производит, упорядочены каким-то образом? - если да, то каков порядок (т.е.) 1-й в списке тем тот, который имеет наибольшее распространение по корпусу?...
827 просмотров
schedule 13.10.2022

Анализ текста с использованием LDA и tm в R
Привет, ребята, у меня небольшие проблемы с проведением LDA, потому что по какой-то причине, когда я готов провести анализ, я получаю ошибки. Я сделаю все возможное, чтобы выполнить то, что я делаю, к сожалению, я не смогу предоставить данные, потому...
1816 просмотров
r lda tm
schedule 15.09.2022

Набор данных BleiCorpus и Associated Press в Gensim: IO Error
Я пытаюсь следовать руководству по тематическому моделированию / скрытому распределению Дирихле (LDA) в книге «Создание систем машинного обучения» с помощью Python. В этой книге я не зашел слишком далеко, и первая часть тематического моделирования...
1489 просмотров
schedule 17.06.2023

выполнить LDA с 3 классами в R
У меня есть три класса со средним значением mu1 <- matrix(c(3, 1), nrow=2) mu2 <- matrix(c(4, 3), nrow=2) mu3 <- matrix(c(8, 2), nrow=2) и ковариация cov <- matrix(c(.5, .3, .3, .5), nrow=2, ncol=2) Я хотел бы...
918 просмотров
schedule 23.06.2022

Что такое оценочная функция в тематическом моделировании с использованием библиотеки mallet
Я новичок в тематическом моделировании и пытаюсь использовать библиотеку Mallet, но у меня есть вопрос. Я использую простую параллельную многопоточную реализацию LDA, чтобы найти темы для некоторых экземпляров. Мой вопрос: что такое функция оценки...
526 просмотров
schedule 08.04.2023

Что означает число, стоящее за каждым словом в словах темы модели LDA?
Когда мы обучаем модель с использованием модели LDA, мы получаем набор общих тем, которые относятся к модели LDA. Каждое слово в теме имеет число за ним. пример topic - 0.004*great + 0.004*good + 0.004*like + 0.003*well + 0.003*best +...
298 просмотров
schedule 29.03.2023

Как вычислить логарифмическую вероятность модели LDA в vowpal wabbit
Я типичный, обычный, повседневный пользователь R. В R есть очень полезный lda.collapsed.gibbs.sampler в пакете lda , который использует свернутый сэмплер Гиббса для соответствия модели скрытого распределения Дирихле (LDA) и возвращает точечные...
662 просмотров
schedule 21.07.2022

Spark 1.4 Mllib LDA topicDistributions () возвращает неправильное количество документов
У меня есть модель LDA, работающая с размером корпуса из 12 054 документов с размером словаря 9 681 слово и 60 кластерами. Я пытаюсь получить распространение темы по документам, вызывая .topicDistributions () или .javaTopicDistributions (). Оба эти...
429 просмотров

Прогнозирование тем с помощью LDA
Я пытаюсь извлечь тематические задания из подгонки, которую я создаю с помощью пакета R 'lda'. Я создал посадку: fit <- lda.collapsed.gibbs.sampler(documents = documents, K = K, vocab = vocab, num.iterations = G, alpha = alpha, eta = eta,...
694 просмотров
schedule 22.06.2023

Ошибка во время установки pip ldavis
Я безуспешно пытался установить пакет Python под названием «pyLDAvis» из cmd уже более суток! Я выполнил следующую команду из cmd - pip install pyldavis Я уже установил Microsoft Visual C++ 2010. Кроме того, я также выполнил шаги, указанные...
1037 просмотров

Моделирование темы: Как использовать LDA в C, например, для данных?
Я хочу попробовать код LDA -c от Blie .et.al. как в этой ссылке . Я скомпилировал код, и когда я запускаю ./lda в своем терминале, отображается следующий результат. usage : lda est [initial alpha] [k] [settings] [data]...
711 просмотров
schedule 07.10.2022

Бок о бок Wordclouds в matplotlib
Я использую пакет WordCloud для отображения слов, сгенерированных scikit LDA (скрытое распределение Дирихле). Для каждой темы, созданной LDA, у меня будет диаграмма. Я хочу иметь возможность отображать все диаграммы в сетке, чтобы...
3885 просмотров
schedule 10.03.2023

Искра Скрытая матрица темы модели распределения Дирихле слишком мала
Сначала на всякий случай объясню, как я представлял документы, на которых хочу запустить модель LDA. Сначала я выполняю некоторую предварительную обработку, чтобы получить наиболее важные термины для человека во всех его документах, затем я получаю...
523 просмотров

Spark LDA — согласованные распределения тем
Я использую реализацию LDA Spark, как показано в примере кода здесь . Я хочу получить согласованные темы/распределения тем для моих обучающих данных. Я тренируюсь на двух машинах и хочу, чтобы результат был одинаковым. Я понимаю, что LDA...
327 просмотров