Я ищу способ настроить Nutch для обхода Интернета, но индексировать в Solr только определенные типы файлов (в частности, XML). Я почти уверен, что пользовательский плагин сделает эту работу, возможно, на основе кода index-more, но я бы не стал этого делать, если мне не нужно. Я также уверен, что мог бы втянуть все в Solr, а затем удалить нежелательный контент с помощью API Solr, но это немного хакерски. Есть ли способ настроить Nutch для индексации только определенных типов файлов в Solr?
Настройте Nutch для индексации только определенных типов файлов в Solr
Ответы (2)
В nutch вы можете определить фильтры для URL-адресов. Как насчет фильтрации по имени расширения файла?
person
jpee
schedule
30.11.2012
Вы можете отфильтровать тип файла по расширению.
Вы можете указать расширения, которые хотите включить или исключить, в regex-urlfilter.txt
например для исключения (-) :-
# пропустить изображение и другие суффиксы, которые мы пока не можем разобрать 29 # для более широкого охвата используйте плагин urlfilter-suffix -.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|CSS|sit| SIT|eps|EPS|wmf|WMF|zip|ZIP|ppt|PPT|миль на галлон|MPG|xls|XLS|gz|GZ|rpm|RPM|tgz|TGZ|mov|MOV|exe|EXE|jpeg|JPEG| bmp|BMP|js|JS)$
с + вы можете просто указать список включения.
person
Jayendra
schedule
30.11.2012
Я хочу только индексировать XML-данные; Я все еще хотел бы ползать большую часть всего. Если я исключаю все, кроме XML, используя regex-urlfilter, Nutch будет сканировать только XML-документы.
- person Ian; 30.11.2012
Итак, вы хотите изменить поведение индексатора, а не сканера.
- person orezvani; 20.08.2013