Я использую набор инструментов Python Gensim для создания модели tf-idf для документов. Поэтому мне нужно сначала создать словарь для всех документов. Однако я обнаружил, что Gensim не использует стемминг перед созданием словаря и корпуса. Я прав ?
Используется ли стемминг, когда gensim создает словарь для модели tf-idf?
Ответы (2)
Ты прав. Gensim не делает ничего особенного, кроме преобразования того, что вы ему даете, в разные модели.
Вот соответствующая цитата и ссылка, откуда она взята:
Способы обработки документов настолько разнообразны и зависят от приложений и языков, что я решил не ограничивать их каким-либо интерфейсом. Вместо этого документ представлен извлеченными из него функциями, а не его «поверхностной» строковой формой: как вы доберетесь до функций, зависит от вас.
person
Wesley Baugh
schedule
01.02.2013
Я тоже боролся с таким же случаем. Чтобы преодолеть это, я сначала проштамповал документы с помощью NLTK
, а затем обработал их с помощью gensim
. Вероятно, это может быть более простым и удобным способом выполнения вашей задачи.
person
Pranav Waila
schedule
25.02.2016