Я пытаюсь проиндексировать в Lucene поле, которое может иметь литерал RDF на разных языках. Большинство подходов, которые я видел до сих пор:
Используйте единый индекс, где в каждом документе есть поле для каждого используемого языка, или
Используйте M индексов, где M — количество языков в корпусе.
В Lucene 2.9+ есть функция Payload, которая позволяет прикреплять атрибуты к термину. Кто-нибудь использует этот механизм для хранения информации о языке (или других атрибутах, таких как типы данных)? Какова производительность по сравнению с двумя другими подходами? Любой указатель на исходный код, показывающий, как это делается, поможет. Спасибо.