Перевернутый индекс Apache Lucene

Использует ли индекс Lucene tf-idf в качестве весов? Можно ли определить собственную статистику и вес для каждого документа и «подключить» их к Lucene?


person rottentomato56    schedule 10.07.2013    source источник


Ответы (2)


Да, алгоритм оценки по умолчанию включает tf-idf и полностью задокументирован в Документация по TFIDFSiilarity.

Существует несколько способов настроить оценку документов.

  • Самый простой и наиболее распространенный способ — включить усиление либо в поле во время индексации, либо в термин запроса при запросе.
  • Многие типы запросов изменяют оценку, используемую для этого запроса. Примеры включают ConstantScoreQuery и DisjunctionMaxQuery.
  • Используемый вами Similarity определяет алгоритм подсчета очков. Вы можете выбрать другой (например, BM25Сходство).
  • Вы можете реализовать свой собственный Similarity, обычно путем расширения реализации более высокого уровня, такой как DefaultSimilarity, TFIDFSimilarity или SimilarityBase.
person femtoRgon    schedule 10.07.2013

Просто просмотрите этот пример. Это может помочь вам узнать, как вы можете внести пользовательские изменения в процесс индексации.

http://lucene.apache.org/core/4_3_1/demo/src-html/org/apache/lucene/demo/IndexFiles.html

person myk.    schedule 10.07.2013
comment
Помимо проблемы с ответом только по ссылке, я не вижу нигде в этом примере, где действительно рассматривается оценка документа. - person femtoRgon; 10.07.2013