В SOLR есть модуль Cell. Он использует Tika для извлечения содержимого из документов и индексации его с помощью SOLR.
Из источников на https://github.com/apache/lucene-solr/tree/master/solr/contrib/extraction, я пришел к выводу, что Cell помещает необработанный извлеченный текст текстового документа в поле под названием «content». Поле индексируется SOLR, но не сохраняется. Когда вы запрашиваете документы, "содержание" не появляется.
У моего экземпляра SOLR нет схемы (я оставил схему по умолчанию).
Я пытаюсь реализовать подобное поведение, используя значение по умолчанию UpdateRequestHandler
(POST to /solr/corename/update
). Запрос POST идет:
<add commitWithin="60000">
<doc>
<field name="content">lorem ipsum</field>
<field name="id">123456</field>
<field name="someotherfield_i">17</field>
</doc>
</add>
Если документы добавлены таким образом, поле content индексируется и сохраняется. Он присутствует в результатах запроса. Я не хочу, чтобы это было; это пустая трата места.
Что мне не хватает в способе добавления документов в Cell?