Как сканировать англоязычный сайт и не сканировать другие языки?

Привет, мне нужно сканировать только те сайты, язык которых английский. Я знаю, что nutch может определять язык сайтов с помощью таких плагинов, как детектор языка. Но мне нужно запретить nutch сканировать неанглийский сайт. Хотя я знаю, что нам нужно просканировать страницу, чтобы понять язык, на котором я хочу покинуть сайт, как только мы сможем определить язык. Не могли бы вы сказать мне, если это возможно? Например, если были загружены две или три страницы сайта, и они не были английскими, nutch должен покинуть сайт и отказаться от этих страниц и всех их URL-адресов. Спасибо за любую помощь.


person a.toraby    schedule 05.09.2012    source источник


Ответы (1)


Если вы быстро просмотрели параметры HTTP-запроса (http://en.wikipedia.org/wiki/List_of_HTTP_header_fields), вы можете запросить язык содержимого, и вы получите такой ответ: «Язык содержимого: en».

Вам не нужно делать запрос GET (и загружать всю страницу), вы можете запросить этот параметр в запросе HEAD (чтобы загружать только заголовки).

О «Например, если две или три страницы сайта были выбраны, и они не были английскими, нутч должен покинуть сайт и отказаться от этих страниц и всех их URL-адресов». Сайт может быть многоязычным. Таким образом, вы можете получить 3 первые страницы на испанском (или как-то так), и вы покинете сайт, хотя есть несколько страниц на английском языке.

person arutaku    schedule 05.09.2012