Я пытаюсь построить несколько агрегатов в реальном времени на Lucene в рамках эксперимента. Документы имеют свои значения, хранящиеся в индексе. Это работает очень хорошо для документов до 10K.
Для большего количества документов это становится довольно медленным. Я предполагаю, что не так много вложено в получение большого количества документов, поскольку это противоречит цели поисковой системы.
Тем не менее, было бы здорово иметь возможность это сделать. Итак, в основном мой вопрос: что я могу сделать, чтобы быстрее получать документы из Lucene? Или есть более разумные подходы?
Я уже получаю только те поля, которые мне нужны.
[править] Индекс довольно большой > 50 ГБ. Это не укладывается в памяти. Количество полей разное, у меня несколько типов документов. Агрегирование в основном будет происходить по фиксированному типу документа; но нет возможности заранее сказать, какой из них.