Используется ли стемминг, когда gensim создает словарь для модели tf-idf?

Я использую набор инструментов Python Gensim для создания модели tf-idf для документов. Поэтому мне нужно сначала создать словарь для всех документов. Однако я обнаружил, что Gensim не использует стемминг перед созданием словаря и корпуса. Я прав ?


person Qiongjie    schedule 22.01.2013    source источник


Ответы (2)


Ты прав. Gensim не делает ничего особенного, кроме преобразования того, что вы ему даете, в разные модели.

Вот соответствующая цитата и ссылка, откуда она взята:

Способы обработки документов настолько разнообразны и зависят от приложений и языков, что я решил не ограничивать их каким-либо интерфейсом. Вместо этого документ представлен извлеченными из него функциями, а не его «поверхностной» строковой формой: как вы доберетесь до функций, зависит от вас.

От строк к векторам

person Wesley Baugh    schedule 01.02.2013

Я тоже боролся с таким же случаем. Чтобы преодолеть это, я сначала проштамповал документы с помощью NLTK, а затем обработал их с помощью gensim. Вероятно, это может быть более простым и удобным способом выполнения вашей задачи.

person Pranav Waila    schedule 25.02.2016