Оценка результатов Solr по релевантности И категории

Мы используем Solr 1.4 для получения результатов по запросам пользователей. Результаты извлекаются из индекса, содержащего примерно 500 тыс. документов. Индекс постоянно пополняется новыми документами, а срок действия старых документов истекает.

Страницы результатов представляют собой списки документов, отсортированные по релевантности (оценке), автоматически вычисляемой solr в зависимости от запроса пользователя. Каждый документ принадлежит к одной категории (например, инженерия, финансы, администрация, математика и т. д.), а идентификатор категории хранится и индексируется Solr.

Чего мы хотим добиться, так это того, чтобы документы сортировались по релевантности, а также каким-то образом взвешивались, чтобы по крайней мере первая страница результатов (10, 20 или 50) содержала документы из как можно большего количества категорий и как можно меньше документов из той же категории являются последовательными.

Мы много искали, но так и не смогли найти ни одного возможного сценария.

Заранее большое спасибо за любые идеи. ГК


person user1095578    schedule 13.12.2011    source источник


Ответы (1)


Насколько мне известно, в Solr это невозможно. Я имею в виду, что, если поисковый термин гораздо более применим к инженерным предметам, чем к чему-либо еще, вам нужно будет искусственно повышать другие категории различными способами в зависимости от результатов поиска.

Вы можете сделать нечто подобное в последней версии, используя свертывание полей. т.е. вы получите только X обращений из категории, а затем ссылку «показать больше подобных».

Кроме того, вы можете выполнить несколько поисков, по одному для каждой категории, и «смешать» их самостоятельно.

person Kris    schedule 13.12.2011