Получить список терминов, которые были выделены Solr

Когда я ищу слово «рыба», я получаю список документов, содержащих это слово и варианты этого слова. Если я включу выделение, я увижу примерно такой фрагмент: Закон требует, чтобы любой <em>рыбалка</em> в общественных озерах...

Я хотел бы показать пользователю приведенный выше фрагмент, который, кстати, отлично работает, но я также хотел бы показать пользователю полный список слов, которые также были бы выделены, если бы я показал все фрагменты.

Например, я хотел бы иметь возможность показать пользователю следующее:

Раздел 18.32A — Охота и рыболовство... Закон требует, чтобы любой <em>ловил рыбу</em> в общественных озерах... Документ также содержит: Рыба, Рыбалка, Рыбак

Есть ли способ получить этот список слов, кроме того, что solr выделяет весь документ, а затем я анализирую документ в поисках тегов em и создаю список выделенных слов?


person Stinger    schedule 20.02.2012    source источник
comment
Думаю, вам придется извлечь все фрагменты из документа, чтобы он был в удобной для извлечения форме. Вам придется использовать параметры выделения, чтобы получить очень большое количество фрагментов, каждый из которых имеет небольшой размер. размер, проникая глубоко в документ. Вам могут понадобиться данные, продублированные в двух полях (да, это уродливо), одно поле для отображения читаемых фрагментов, а другое для извлечения слов одной и той же основы (см. Основы).   -  person Jesvin Jose    schedule 20.02.2012


Ответы (1)


Я бы исследовал размер фрагмента (hl.fragsize), синонимы (synonym.txt) или корень (может помочь с вариантами слова), чтобы найти решение. Вы можете поставить рыбу, рыбалку, ловить рыбу, чтобы все они означали одно и то же в синонимах. Убедитесь, что вы понимаете, как работает расширение всех и хотите ли вы, чтобы поиск заменял одно другим. Также убедитесь, что вы знаете, следует ли индексировать файл синонимов или запрашивать его. Не используйте синонимы как во время индекса, так и во время запроса. Также есть переключатель для включения выделения нескольких совпадений.

person Elaine Blount    schedule 22.10.2013