Получить термины, присутствующие в документе с коллекцией

Я разрабатываю функцию для поиска терминов в документе. В параметре моей функции я даю HashSet из String. Я просматриваю HashSet для анализа каждой строки (с помощью класса Lucene Analyzer), затем ищу проанализированную строку в тексте с помощью класса PhraseQuery, чтобы узнать, существует ли она в документе. Взамен моей функции есть HashSet, который содержит только термины, найденные в документе.

Работает, но медленно, потому что просматриваю все HashSet. Нет ли способа передать Lucene набор слов, а затем получить набор только из тех слов, которые попадают в документ?

taubhi 19.05.2014 источник

comment

Вау! Я просто задавал почти тот же вопрос: допустим, у меня есть 100 строк (возможно, состоящих из нескольких слов), и я хочу спросить Lucene, какие из этих терминов присутствуют в конкретном документе. Другими словами, я хочу получить пересечение условий запроса и документа. Является ли это возможным? Это допустимый вариант использования Lucene? - Marcin 19.05.2014

comment

Я предполагаю, что этот вопрос уже был задан и ответил здесь: stackoverflow.com/questions/7896183/ - Marcin 20.05.2014

comment

Спасибо большое, я не нашёл этот вопрос! Это заставило меня найти еще один хороший ответ: stackoverflow.com/questions/2851473/ Еще раз спасибо! - taubhi 20.05.2014

Получить термины, присутствующие в документе с коллекцией

Похожие вопросы