Настройте Nutch для индексации только определенных типов файлов в Solr

Я ищу способ настроить Nutch для обхода Интернета, но индексировать в Solr только определенные типы файлов (в частности, XML). Я почти уверен, что пользовательский плагин сделает эту работу, возможно, на основе кода index-more, но я бы не стал этого делать, если мне не нужно. Я также уверен, что мог бы втянуть все в Solr, а затем удалить нежелательный контент с помощью API Solr, но это немного хакерски. Есть ли способ настроить Nutch для индексации только определенных типов файлов в Solr?

solr nutch

Ian 30.05.2012 источник

Ответы (2)

arrow_upward
0
arrow_downward

В nutch вы можете определить фильтры для URL-адресов. Как насчет фильтрации по имени расширения файла?

jpee 30.11.2012

arrow_upward
0
arrow_downward

Вы можете отфильтровать тип файла по расширению.
Вы можете указать расширения, которые хотите включить или исключить, в regex-urlfilter.txt

например для исключения (-) :-

# пропустить изображение и другие суффиксы, которые мы пока не можем разобрать 29 # для более широкого охвата используйте плагин urlfilter-suffix -.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|CSS|sit| SIT|eps|EPS|wmf|WMF|zip|ZIP|ppt|PPT|миль на галлон|MPG|xls|XLS|gz|GZ|rpm|RPM|tgz|TGZ|mov|MOV|exe|EXE|jpeg|JPEG| bmp|BMP|js|JS)$

с + вы можете просто указать список включения.

Jayendra 30.11.2012

comment

Я хочу только индексировать XML-данные; Я все еще хотел бы ползать большую часть всего. Если я исключаю все, кроме XML, используя regex-urlfilter, Nutch будет сканировать только XML-документы. - Ian; 30.11.2012

comment

Итак, вы хотите изменить поведение индексатора, а не сканера. - orezvani; 20.08.2013

Настройте Nutch для индексации только определенных типов файлов в Solr

Ответы (2)

Похожие вопросы