Получить термины, присутствующие в документе с коллекцией

Я разрабатываю функцию для поиска терминов в документе. В параметре моей функции я даю HashSet из String. Я просматриваю HashSet для анализа каждой строки (с помощью класса Lucene Analyzer), затем ищу проанализированную строку в тексте с помощью класса PhraseQuery, чтобы узнать, существует ли она в документе. Взамен моей функции есть HashSet, который содержит только термины, найденные в документе.

Работает, но медленно, потому что просматриваю все HashSet. Нет ли способа передать Lucene набор слов, а затем получить набор только из тех слов, которые попадают в документ?


person taubhi    schedule 19.05.2014    source источник
comment
Вау! Я просто задавал почти тот же вопрос: допустим, у меня есть 100 строк (возможно, состоящих из нескольких слов), и я хочу спросить Lucene, какие из этих терминов присутствуют в конкретном документе. Другими словами, я хочу получить пересечение условий запроса и документа. Является ли это возможным? Это допустимый вариант использования Lucene?   -  person Marcin    schedule 19.05.2014
comment
Я предполагаю, что этот вопрос уже был задан и ответил здесь: stackoverflow.com/questions/7896183/   -  person Marcin    schedule 20.05.2014
comment
Спасибо большое, я не нашёл этот вопрос! Это заставило меня найти еще один хороший ответ: stackoverflow.com/questions/2851473/ Еще раз спасибо!   -  person taubhi    schedule 20.05.2014