Это не должно быть учебником. Это всего лишь набор вещей, которые вы можете сделать, зная заранее, если планируете работать с Python NLTK.
- NLTK — это скорее набор инструментов для обучения, чем инструмент для фактической реализации проекта. В нем много дыр и пробелов, которые нужно заполнить, и вам нужно сделать каждый бит самостоятельно. В конечном итоге вы можете потратить больше времени на смешивание бетона, чем на строительство дороги.
- Требуется много предварительной обработки, прежде чем вы действительно сможете что-то делать. Рассмотрите возможность тегирования POS (частей речи), выделения корней и удаления стоп-слов задолго до применения реальных алгоритмов.
- Сам комплект требует времени для загрузки, если у вас не самое быстрое подключение к Интернету. Некоторые пакеты работают до 2 Гб. Так что лучше скачать его заранее, чем в последний момент.
- Знание Python на практике значительно облегчает задачу. Вам будет труднее изучить циклы, определение методов и INDENTATION, если вы начнете изучать Python с помощью NLTK.
- Алгоритмы могут потребовать длительного обучения, прежде чем вы сможете достичь ожидаемого уровня точности. Компьютер - слабый ученик, но очень быстрый. Используйте это с пользой и тренируйте его как можно больше.
- Есть много помощи, если вы столкнетесь с контрольно-пропускным пунктом. Это изобретательно и в моде.
- Убедитесь, что вы делаете вещи интересными во время написания кода, чтобы вам не было скучно. Волшебству нужно время, чтобы произойти.
- Протестируйте каждый небольшой модуль по отдельности, прежде чем интегрировать весь проект. Вокруг будет летать много данных, и вам придется следить за тем, чтобы каждый нашел свое гнездо.