Это не должно быть учебником. Это всего лишь набор вещей, которые вы можете сделать, зная заранее, если планируете работать с Python NLTK.

  1. NLTK — это скорее набор инструментов для обучения, чем инструмент для фактической реализации проекта. В нем много дыр и пробелов, которые нужно заполнить, и вам нужно сделать каждый бит самостоятельно. В конечном итоге вы можете потратить больше времени на смешивание бетона, чем на строительство дороги.
  2. Требуется много предварительной обработки, прежде чем вы действительно сможете что-то делать. Рассмотрите возможность тегирования POS (частей речи), выделения корней и удаления стоп-слов задолго до применения реальных алгоритмов.
  3. Сам комплект требует времени для загрузки, если у вас не самое быстрое подключение к Интернету. Некоторые пакеты работают до 2 Гб. Так что лучше скачать его заранее, чем в последний момент.
  4. Знание Python на практике значительно облегчает задачу. Вам будет труднее изучить циклы, определение методов и INDENTATION, если вы начнете изучать Python с помощью NLTK.
  5. Алгоритмы могут потребовать длительного обучения, прежде чем вы сможете достичь ожидаемого уровня точности. Компьютер - слабый ученик, но очень быстрый. Используйте это с пользой и тренируйте его как можно больше.
  6. Есть много помощи, если вы столкнетесь с контрольно-пропускным пунктом. Это изобретательно и в моде.
  7. Убедитесь, что вы делаете вещи интересными во время написания кода, чтобы вам не было скучно. Волшебству нужно время, чтобы произойти.
  8. Протестируйте каждый небольшой модуль по отдельности, прежде чем интегрировать весь проект. Вокруг будет летать много данных, и вам придется следить за тем, чтобы каждый нашел свое гнездо.