Тег Python NLTK PoS неточен

Я несколько дней пытался улучшить POS-тегер на NLTK, но не могу понять. Прямо сейчас теггер по умолчанию действительно неточен и помечает большинство слов как «NN». Как я могу улучшить теггер, чтобы сделать его более точным? Я уже искал обучение таггера, но не могу заставить его работать.

У кого-нибудь есть простой метод для этого? большое спасибо.


person Lemon    schedule 03.02.2017    source источник


Ответы (1)


Вы делаете это по одному слову или в большом корпусе? Обычно алгоритмы тегирования POS используют вероятность того, что слово является типом тега, например, «NN», но они также используют контекст окружающего предложения для прогнозирования, поэтому чем больше слов, тем выше вероятность того, что оно будет точным.

Вы также можете попробовать использовать различные теги Unigram, bigram, trigram и т. д., чтобы попытаться получить более высокую точность за счет производительности. Вы можете прочитать об этом здесь: http://www.nltk.org/book/ch05.html

person MeganB    schedule 03.02.2017