Кратко о проблеме: я хотел бы, чтобы Sitecore индексировал содержимое PDF-файлов, используя встроенные функции Solr (предоставляемые Tika). Я не знаю, как настроить индексирование Sitecore для использования этой функции в Solr (Tika). (Я думаю, мне нужно написать собственный индексатор.)
Я работаю с Sitecore 7 (7.1, обновление 1) и хочу индексировать контент из PDF-файлов (или других типов мультимедиа). Я хотел бы проиндексировать эти данные для целей поиска.
У меня установлен Solr (4.6.1), и он работает с Sitecore 7. Когда я индексирую свой сайт, он сохраняет все документы в правильном ядре Solr, и я могу успешно получить эти документы для отображения.
Используя curl
, я могу отправить PDF-файл в свой экземпляр Solr и проиндексировать его.
curl "http://localhost:8983/solr/update/extract?literal._id=doc1&uprefix=attr_&fmap.content=attr_content&commit=true" -F "[email protected]"
Это работает, и я могу читать этот контент в своем веб-проекте Sitecore и отображать его в представлениях, поэтому я знаю, что могу получить доступ к этим данным. Однако я хотел бы, чтобы данные были прикреплены к элементам, которые я загрузил в Sitecore.
Я бы хотел, чтобы что-то подобное происходило, когда я загружаю PDF-файл в медиатеку Sitecore и публикую элемент или, по крайней мере, когда я повторно индексирую сайт.
В настоящее время я просматриваю следующий учебник, чтобы узнать кое-что о написании пользовательского индексирования (вот ссылка на часть 1): http://www.sitecore.net/Community/Technical-Blogs/Getting-to-Know-Sitecore/Posts/2013/04/Sitecore-7-Search-Provider-Part-1-Manually-Triggered-Indexing.aspx
Спасибо за ваше терпение.