Использует ли индекс Lucene tf-idf в качестве весов? Можно ли определить собственную статистику и вес для каждого документа и «подключить» их к Lucene?
Перевернутый индекс Apache Lucene
Ответы (2)
Да, алгоритм оценки по умолчанию включает tf-idf и полностью задокументирован в Документация по TFIDFSiilarity.
Существует несколько способов настроить оценку документов.
- Самый простой и наиболее распространенный способ — включить усиление либо в поле во время индексации, либо в термин запроса при запросе.
- Многие типы запросов изменяют оценку, используемую для этого запроса. Примеры включают ConstantScoreQuery и DisjunctionMaxQuery.
- Используемый вами
Similarity
определяет алгоритм подсчета очков. Вы можете выбрать другой (например, BM25Сходство). - Вы можете реализовать свой собственный
Similarity
, обычно путем расширения реализации более высокого уровня, такой какDefaultSimilarity
,TFIDFSimilarity
илиSimilarityBase
.
person
femtoRgon
schedule
10.07.2013
Просто просмотрите этот пример. Это может помочь вам узнать, как вы можете внести пользовательские изменения в процесс индексации.
http://lucene.apache.org/core/4_3_1/demo/src-html/org/apache/lucene/demo/IndexFiles.html
person
myk.
schedule
10.07.2013
Помимо проблемы с ответом только по ссылке, я не вижу нигде в этом примере, где действительно рассматривается оценка документа.
- person femtoRgon; 10.07.2013