Как реализовать IFilter для индексации тяжелых форматов?

Мне нужно разработать IFilter для Microsoft Search Server 2008, который выполняет длительные вычисления для извлечения текста. Извлечение текста из одного файла может занять от 5 секунд до 12 часов. Как я могу спроектировать такой IFilter, чтобы демон не сбрасывал его по таймауту, а также другие IFilter могли сбрасываться по таймауту, если они зависают?


person sharptooth    schedule 21.01.2009    source источник


Ответы (2)


12 часов, вау!

Если это занимает так много времени и файлов много, лучшим вариантом будет создание приложения предварительной обработки, которое извлечет текст и сделает его доступным для iFilter.

Другой вариант - создать html-сводки документов и дать поисковому роботу указание их проиндексировать. Если бы сводная страница могла легко ссылаться на сам документ при необходимости.

person Nat    schedule 27.01.2009

На самом деле я еще не разработал никаких фильтров, поэтому я просто предполагаю, но я всегда понимал, что IFilter основан на блоках именно по этой причине. Реализация фильтра должна убедиться, что возвращенные фрагменты «достаточно малы», поэтому вызывающий демон поиска может просто завершить работу между двумя фрагментами, если процесс занимает слишком много времени.

Видимо, мое предположение неверно, иначе вы бы не задавали этот самый вопрос.

person Paul-Jan    schedule 22.01.2009