Как реализовать IFilter для индексации тяжелых форматов?

Мне нужно разработать IFilter для Microsoft Search Server 2008, который выполняет длительные вычисления для извлечения текста. Извлечение текста из одного файла может занять от 5 секунд до 12 часов. Как я могу спроектировать такой IFilter, чтобы демон не сбрасывал его по таймауту, а также другие IFilter могли сбрасываться по таймауту, если они зависают?

search sharepoint ifilter

sharptooth 21.01.2009 источник

Ответы (2)

arrow_upward
3
arrow_downward

12 часов, вау!

Если это занимает так много времени и файлов много, лучшим вариантом будет создание приложения предварительной обработки, которое извлечет текст и сделает его доступным для iFilter.

Другой вариант - создать html-сводки документов и дать поисковому роботу указание их проиндексировать. Если бы сводная страница могла легко ссылаться на сам документ при необходимости.

Nat 27.01.2009

arrow_upward
0
arrow_downward

На самом деле я еще не разработал никаких фильтров, поэтому я просто предполагаю, но я всегда понимал, что IFilter основан на блоках именно по этой причине. Реализация фильтра должна убедиться, что возвращенные фрагменты «достаточно малы», поэтому вызывающий демон поиска может просто завершить работу между двумя фрагментами, если процесс занимает слишком много времени.

Видимо, мое предположение неверно, иначе вы бы не задавали этот самый вопрос.

Paul-Jan 22.01.2009

Как реализовать IFilter для индексации тяжелых форматов?

Ответы (2)

Похожие вопросы