Настройте Nutch для индексации только определенных типов файлов в Solr

Я ищу способ настроить Nutch для обхода Интернета, но индексировать в Solr только определенные типы файлов (в частности, XML). Я почти уверен, что пользовательский плагин сделает эту работу, возможно, на основе кода index-more, но я бы не стал этого делать, если мне не нужно. Я также уверен, что мог бы втянуть все в Solr, а затем удалить нежелательный контент с помощью API Solr, но это немного хакерски. Есть ли способ настроить Nutch для индексации только определенных типов файлов в Solr?


person Ian    schedule 30.05.2012    source источник


Ответы (2)


В nutch вы можете определить фильтры для URL-адресов. Как насчет фильтрации по имени расширения файла?

person jpee    schedule 30.11.2012

Вы можете отфильтровать тип файла по расширению.
Вы можете указать расширения, которые хотите включить или исключить, в regex-urlfilter.txt

например для исключения (-) :-

# пропустить изображение и другие суффиксы, которые мы пока не можем разобрать 29 # для более широкого охвата используйте плагин urlfilter-suffix -.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|CSS|sit| SIT|eps|EPS|wmf|WMF|zip|ZIP|ppt|PPT|миль на галлон|MPG|xls|XLS|gz|GZ|rpm|RPM|tgz|TGZ|mov|MOV|exe|EXE|jpeg|JPEG| bmp|BMP|js|JS)$

с + вы можете просто указать список включения.

person Jayendra    schedule 30.11.2012
comment
Я хочу только индексировать XML-данные; Я все еще хотел бы ползать большую часть всего. Если я исключаю все, кроме XML, используя regex-urlfilter, Nutch будет сканировать только XML-документы. - person Ian; 30.11.2012
comment
Итак, вы хотите изменить поведение индексатора, а не сканера. - person orezvani; 20.08.2013