Привет, мне нужно сканировать только те сайты, язык которых английский. Я знаю, что nutch может определять язык сайтов с помощью таких плагинов, как детектор языка. Но мне нужно запретить nutch сканировать неанглийский сайт. Хотя я знаю, что нам нужно просканировать страницу, чтобы понять язык, на котором я хочу покинуть сайт, как только мы сможем определить язык. Не могли бы вы сказать мне, если это возможно? Например, если были загружены две или три страницы сайта, и они не были английскими, nutch должен покинуть сайт и отказаться от этих страниц и всех их URL-адресов. Спасибо за любую помощь.
Как сканировать англоязычный сайт и не сканировать другие языки?
Ответы (1)
Если вы быстро просмотрели параметры HTTP-запроса (http://en.wikipedia.org/wiki/List_of_HTTP_header_fields), вы можете запросить язык содержимого, и вы получите такой ответ: «Язык содержимого: en».
Вам не нужно делать запрос GET (и загружать всю страницу), вы можете запросить этот параметр в запросе HEAD (чтобы загружать только заголовки).
О «Например, если две или три страницы сайта были выбраны, и они не были английскими, нутч должен покинуть сайт и отказаться от этих страниц и всех их URL-адресов». Сайт может быть многоязычным. Таким образом, вы можете получить 3 первые страницы на испанском (или как-то так), и вы покинете сайт, хотя есть несколько страниц на английском языке.
person
arutaku
schedule
05.09.2012