Моделирование темы: Как использовать LDA в C, например, для данных?

Я хочу попробовать код LDA -c от Blie .et.al. как в этой ссылке.

Я скомпилировал код, и когда я запускаю ./lda в своем терминале, отображается следующий результат.

usage : lda est [initial alpha] [k] [settings] [data] [random/seeded/manual=filename/*] [directory]
        lda inf [settings] [model] [data] [name]

Это означает, что он был выполнен правильно.

Однако, несмотря на чтение файла README.txt, я не могу успешно запустить код LDA. Либо он говорит Ошибка сегментации (основной дамп), либо убит.

Что мне не хватает? Как использовать его на данных примера, которые они дали?

Я прочитал ответ о переполнении стека на вопрос, заданный здесь, но это было бесполезно, поскольку я не знаю значения по умолчанию.

P.S. Я новичок.


person kingmakerking    schedule 17.11.2015    source источник


Ответы (1)


Вы случайно не используете ap.txt вместо ap.dat? lda-c не принимает в качестве входных данных необработанные предложения или размеченные данные; для каждого документа требуется последовательность набора слов. Если в ap.dat есть такая строка, как 186 0:1 6144:1 3586:2 ..., это означает, что соответствующий документ содержит 186 различных слов, слово 0 встречается один раз, слово 6144 — один раз, слово 3586 — дважды и так далее.

Эта команда работает для меня (используя исходный код Blei):

./lda est 0.1 10 settings.txt ap.dat random modeldir

(Не стесняйтесь настраивать начальную альфу (0,1) и количество тем (10) по своему усмотрению.)

person Ray    schedule 18.11.2015
comment
У меня это не сработало reading data from ap.dat Segmentation fault (core dumped) говорит вывод :( - person kingmakerking; 18.11.2015
comment
Можете ли вы опубликовать точную команду, которую вы используете, а также содержимое settings.txt и первые десять строк ap.dat? Кроме того, попробуйте использовать немодифицированную версию с сайта cs.princeton.edu/~blei/. лада-с. Не похоже, что версия на github изменила что-то существенное, но это стоит проверить. И подскажите на какой строчке крашится (для blei версии если крашится в той, и для github версии если нет). - person Ray; 19.11.2015
comment
Спасибо, @Ray, у меня это сработало, kingmakerking убедитесь, что вы указываете правильное расположение вашего файла ap.dat, в примере предполагается, что вы храните его в той же папке. Кроме того, если вы открыли ap.dat в текстовом редакторе, форматирование могло измениться, поэтому попробуйте снова загрузить ap.dat, поместив его в тот же каталог, что и файл lda, и запустите - person soheildb; 01.08.2016