ошибка загрузки с использованием nltk.download ()

Я экспериментирую с пакетом NLTK с использованием Python. Я пробовал загрузить NLTK, используя nltk.download(). У меня такое сообщение об ошибке. Как решить эту проблему? Спасибо.

Я использовал систему Ubuntu, установленную под VMware. IDE - это Spyder.

введите описание изображения здесь

После использования nltk.download('all') он может загружать некоторые пакеты, но при загрузке oanc_masc выдает сообщение об ошибке.

введите описание изображения здесь


person user288609    schedule 26.12.2014    source источник
comment
Почему вы не устанавливаете python-nltk, используя < b> apt-get?   -  person Cristian Ciupitu    schedule 26.12.2014
comment
@CristianCiupitu, вы можете установить nltk как хотите, но затем вы используете nltk.download() для загрузки данных корпуса после его установки.   -  person Ffisegydd    schedule 26.12.2014
comment
@Ffisegydd, у вас есть какое-нибудь решение этой проблемы? Спасибо.   -  person user288609    schedule 26.12.2014
comment
Вы вообще не меняли какие-либо настройки?   -  person Ffisegydd    schedule 26.12.2014
comment
Я не менял никаких настроек. Просто установите ubuntu под vmware. Хост-система - Windows 7.   -  person user288609    schedule 26.12.2014
comment
Похоже, что с их сервером что-то не так. Также не могу скачать данные nltk. Сервер не отвечает   -  person randomsurfer_123    schedule 19.10.2015


Ответы (4)


Чтобы загрузить определенный набор данных / модели, используйте функцию nltk.download(), например если вы хотите загрузить punkt токенизатор предложений, используйте:

$ python3
>>> import nltk
>>> nltk.download('punkt')

Если вы не уверены, какие данные / модель вам нужны, вы можете начать с базового списка данных + моделей с помощью:

>>> import nltk
>>> nltk.download('popular')

Он загрузит список «популярных» ресурсов.

Убедитесь, что у вас установлена ​​последняя версия NLTK, потому что она постоянно улучшается и поддерживается:

$ pip install --upgrade nltk

РЕДАКТИРОВАТЬ

Если кто-то избегает ошибок при загрузке больших наборов данных из nltk, из https://stackoverflow.com/a/38135306/610569

$ rm /Users/<your_username>/nltk_data/corpora/panlex_lite.zip
$ rm -r /Users/<your_username>/nltk_data/corpora/panlex_lite
$ python

>>> import nltk
>>> dler = nltk.downloader.Downloader()
>>> dler._update_index()
>>> dler._status_cache['panlex_lite'] = 'installed' # Trick the index to treat panlex_lite as it's already installed.
>>> dler.download('popular')

А если кто-то хочет найти каталог nltk_data, см. https://stackoverflow.com/a/36383314/610569

Чтобы настроить путь nltk_data, см. https://stackoverflow.com/a/22987374/610569

person alvas    schedule 26.12.2014
comment
Спасибо за ответ. Я попробовал nltk.download ('all'), он успешно продолжил загрузку некоторых пакетов, но он застрял при загрузке sth, связанной с oasc_masc, я включил соответствующий снимок экрана в исходное сообщение. - person user288609; 26.12.2014
comment
какая у вас версия nltk? каков результат на вашем терминале: python -c "import nltk; print nltk.__version__"? - person alvas; 26.12.2014
comment
Привет, @alvas. У меня аналогичные проблемы с использованием nltk.download ('all') в Ubuntu, за исключением того, что я получаю ошибку HTTP 404: не найдено ни в IDLE, ни в командной строке. Моя версия NLTK - 2.0b9. Вы хоть представляете, что может происходить? - person Joansy; 06.12.2015
comment
@Joansy, пожалуйста, обновите свой NLTK. sudo pip install nltk или sudo apt-get install python-nltk. После обновления проблема должна исчезнуть сама собой. В противном случае вам придется установить URL-адрес вручную. Попробуйте сначала обновить NLTK, если не работает, то вернитесь снова =) - person alvas; 06.12.2015

Из командной строки после импорта nltk попробуйте

nltk.download('popular', halt_on_error=False)

После ошибки он попросит повторить попытку сломанного пакета, просто откажитесь, нажав n, и он продолжит работу с правильными пакетами.

person tolgayilmaz    schedule 24.11.2016
comment
У меня было несколько UnicodeDecodeError, и мне пришлось несколько раз запускать эту команду, чтобы все загрузить, но в итоге все заработало. Спасибо ! - person CoMartel; 31.05.2017

а) в OSX либо запустите

sudo /Applications/Python\ 3.6/Install\ Certificates.command

б) переключитесь на пользователя с правами администратора (того, который вы установили с правами администратора)

и введите в командной строке:

/Applications/Python\ 3.6/Install\ Certificates.command

Примечания:

  • Символы "\" необходимы, потому что они экранируют пустые символы в именах файлов.
  • Эта процедура работает, если у вас установлен python 3.6, в противном случае измените его, чтобы он соответствовал вашей установленной версии python ... для этого выполните:

ls /Applications

и посмотрите на имя каталога python, которое у вас там есть.

person Alexandre    schedule 10.02.2020

У меня была такая ошибка:

Resource punkt not found. Please use the NLTK Downloader to obtain the resource: import nltk nltk.download('punkt')

Когда я попытался решить, написав:

import nltk

nltk.download()

мой компьютер внезапно выключился, и анаконда тоже закрылась. Когда я пытаюсь открыть, всегда выдает ошибку.

Решил проблему написав:

import nltk

nltk.download('punkt')
person HaticeKübraKılınç    schedule 31.01.2020
comment
Это, вероятно, не поможет. Его проблема заключалась в невозможности выполнить nltk.download ('all'), скорее всего, только при невозможности выполнить nltk.download ('oanc_masc') - person Jialin Zou; 01.02.2020