Я пытаюсь следовать руководству по тематическому моделированию / скрытому распределению Дирихле (LDA) в книге «Создание систем машинного обучения» с помощью Python.
В этой книге я не зашел слишком далеко, и первая часть тематического моделирования вернула мне ошибки:
from gensim import corpora, models, similarities
corpus = corpora.BleiCorpus('./data/ap/ap.dat', './data/ap/vocab.txt')
Ошибка:
63
64 self.fname = fname
---> 65 with utils.smart_open(fname_vocab) as fin:
66 words = [utils.to_unicode(word).rstrip() for word in fin]
67 self.id2word = dict(enumerate(words))
/Users/user/Library/Enthought/Canopy_64bit/User/lib/python2.7/site-packages/gensim/utils.pyc in smart_open(fname, mode)
659 from gzip import GzipFile
660 return make_closing(GzipFile)(fname, mode)
--> 661 return open(fname, mode)
662
663
IOError: [Errno 2] No such file or directory: './data/ap/vocab.txt'
Файл Vocab.txt не существует, но, переключившись в каталог, в котором он должен находиться, я обнаружил следующее:
$ ls download_ap.sh download_wp.sh preprocess-wikidata.sh
Похоже, что данные ap нужно загружать отдельно (в книге не упоминается), поэтому, сделав следующее:
sh download_ap.sh
Я получаю это:
download_ap.sh: line 2: wget: command not found
tar: Error opening archive: Failed to open 'ap.tgz'
Кто-нибудь знает, как решить эту проблему?
Спасибо