Список стоп-слов для НЛП

Есть ли список стоп-слов, которые люди обычно используют для удаления знаков препинания и закрывающих классных слов (например, he, she, it) при выполнении задач, связанных с НЛП или IR / IE?

Я пробовал моделировать темы с использованием выборки Гиббса для устранения неоднозначности смысла слов, и оно продолжает давать знаки препинания и близкие по классу слова с высокой вероятностью только потому, что они часто появляются в корпусе. https://github.com/christianscheible/BNB/blob/master/nb_gibbs.py


person alvas    schedule 18.02.2013    source источник


Ответы (1)


Вы пробовали гуглить? Лучшие результаты, которые я получаю, содержат либо списки запрещенных слов, либо сообщения о переполнении стека, которые ссылаются на указанные списки:

person mbatchkarov    schedule 18.02.2013