У меня нет формального опыта в обработке естественного языка, и мне было интересно, может ли кто-нибудь из НЛП пролить свет на это. Я играю с библиотекой NLTK, и я специально изучал функцию стоп-слов, предоставляемую этим пакетом:
В [80]: nltk.corpus.stopwords.words ('английский')
Из [80]:
['я', 'я', 'мой', 'я', 'мы', 'наш', 'наш', 'мы', 'ты', 'твой', 'твой', 'ты', ' вы ',' он ',' он ',' его ',' он ',' она ',' она ',' ее ',' она ',' оно ',' его ',' себя ',' они ' , 'они', 'их', 'их', 'себя', 'что', 'что', 'кто', 'кто', 'этот', 'тот', 'эти', 'те', ' есть , 'делает', 'сделал', 'делаю', 'а', 'ан', 'то', 'и', 'но', 'если', 'или', 'потому что', 'как', ' до ',' в то время как ',' из ',' в ',' по ',' для ',' с ',' около ',' против ',' между ',' в ',' через ',' во время ' , 'до', 'после', 'вверху', 'внизу', 'до', 'от', 'вверх', 'вниз', 'внутрь', 'вне', 'вкл', 'выкл', ' над ',' под ',' снова ',' далее ',' затем ',' один раз ',' здесь ',' там ',' когда ',' где ',' почему ',' как ',' все ' , «любой», «оба», «каждый», «несколько», «еще», 'большинство', 'другие', 'некоторые', 'такие', 'нет', 'ни', 'не', 'только', 'собственные', 'такие же', 'так', 'чем', 'тоже ',' очень ',' s ',' t ',' can ',' will ',' just ',' don ',' should ',' now ']
Я не понимаю, почему здесь присутствует слово «нет»? Разве это не обязательно для определения настроения в предложении? Например, такое предложение:
Я не уверен, в чем проблема.
становится совершенно другим после удаления стоп-слова not
, изменяя значение предложения на противоположное (I am sure what the problem is
). Если это так, то есть ли набор правил, которые мне не хватает, когда не использовать эти стоп-слова?
!
и?
в ваш набор функций вполне может улучшить ваши результаты. - person Fred Foo   schedule 26.06.2011