Импорт результатов TF-IDF в Carrot2

Мне нравится, как работает Carrot2. В настоящее время я использую в основном импорт XML. Я хотел бы импортировать файл XML с результатами TF-IDF вместо фрагментов. Это позволило бы мне подготовить данные, как я хочу.

Я пытался передать ключевые слова TF-IDF (без метрик) в сниппетах, и это как-то сработало. К сожалению, Carrot2 снова выполняет TF-IDF на моих данных, и результаты посредственные. Было бы здорово, если бы я мог передавать свои ключевые слова вместе с показателями важности, а затем использовать Carrot2 только для точной настройки результатов.

Я искал такое решение в API, но не нашел. Можно как-нибудь?


person user12715703    schedule 15.01.2020    source источник


Ответы (1)


К сожалению, Carrot2 не поддерживает прямой ввод данных TF-IDF. Один хак, который вы можете попробовать, состоит в том, чтобы передать каждое ключевое слово через точку (.), повторяя каждое ключевое слово столько раз, сколько указано его показателями важности (округленными/масштабированными до ближайшего целого числа). Разделение ключевых слов точкой гарантирует, что Carrot2 не попытается объединить соседние ключевые слова в фразы.

person Stanislaw Osinski    schedule 20.01.2020
comment
Спасибо. Я думала об этом. Я попробую. :-) - person user12715703; 21.01.2020
comment
Конечно, пожалуйста, сообщите нам, как все прошло! - person Stanislaw Osinski; 22.01.2020