Nutch: как исключить неанглоязычные страницы?

Мне интересно, существует ли простой механизм для исключения страниц, написанных не на английском языке, из процесса индексации? Например, список исходных URL-адресов dmoz содержит страницы википедии на многих языках, и они являются первыми кандидатами на исключение.

Какие-нибудь советы?


person user3111525    schedule 23.04.2012    source источник


Ответы (1)


Есть ли у вас какой-либо шаблон URL, которому следуют все страницы на английском языке? например. В Википедии есть «en» в URL-адресе для английского, как

http://en.wikipedia.org/wiki/Category:Wikipedia_books

. Для другого языка НЕ ​​имеет en в URL-адресе, например

http://gl.wikipedia.org/wiki/Categor%C3%ADa:Wikipedia:Libros

Если вы можете определить это, то это будет легко сделать, добавив правило регулярного выражения в файл $NUTCH_CONF_DIR/regex-urlfilter.txt, поэтому включите страницы, которые имеют шаблон для английского языка, и отбросьте другие.

person Tejas Patil    schedule 23.04.2012
comment
Это проблема. Язык основан на содержании, а не на URL-адресе. Наверное, придется писать плагин... - person user3111525; 26.04.2012