Чтобы загрузить определенный набор данных / модели, используйте функцию nltk.download()
, например если вы хотите загрузить punkt
токенизатор предложений, используйте:
$ python3
>>> import nltk
>>> nltk.download('punkt')
Если вы не уверены, какие данные / модель вам нужны, вы можете начать с базового списка данных + моделей с помощью:
>>> import nltk
>>> nltk.download('popular')
Он загрузит список «популярных» ресурсов.
Убедитесь, что у вас установлена последняя версия NLTK
, потому что она постоянно улучшается и поддерживается:
$ pip install --upgrade nltk
РЕДАКТИРОВАТЬ
Если кто-то избегает ошибок при загрузке больших наборов данных из nltk
, из https://stackoverflow.com/a/38135306/610569
$ rm /Users/<your_username>/nltk_data/corpora/panlex_lite.zip
$ rm -r /Users/<your_username>/nltk_data/corpora/panlex_lite
$ python
>>> import nltk
>>> dler = nltk.downloader.Downloader()
>>> dler._update_index()
>>> dler._status_cache['panlex_lite'] = 'installed' # Trick the index to treat panlex_lite as it's already installed.
>>> dler.download('popular')
А если кто-то хочет найти каталог nltk_data
, см. https://stackoverflow.com/a/36383314/610569
Чтобы настроить путь nltk_data
, см. https://stackoverflow.com/a/22987374/610569
person
alvas
schedule
26.12.2014
nltk
как хотите, но затем вы используетеnltk.download()
для загрузки данных корпуса после его установки. - person Ffisegydd   schedule 26.12.2014