Есть ли список стоп-слов, которые люди обычно используют для удаления знаков препинания и закрывающих классных слов (например, he, she, it
) при выполнении задач, связанных с НЛП или IR / IE?
Я пробовал моделировать темы с использованием выборки Гиббса для устранения неоднозначности смысла слов, и оно продолжает давать знаки препинания и близкие по классу слова с высокой вероятностью только потому, что они часто появляются в корпусе. https://github.com/christianscheible/BNB/blob/master/nb_gibbs.py