Я новичок в веб-сканировании, спасибо за помощь. Задача, которую мне нужно выполнить, — получить полный возвращаемый HTTP-ответ от поиска Google. При поиске в Google по поисковому ключевому слову в браузере на возвращаемой странице есть раздел:
Поиски, связанные с XXXX (где XXXX — искомые слова)
Мне нужно извлечь этот раздел веб-страницы. По моим исследованиям, большинство текущих пакетов сканирования Google не могут извлечь этот раздел информации. Я попытался использовать urllib2 со следующим кодом:
import urllib2
url = "https://www.google.com.sg/search? q=test&ie=&oe=#q=international+business+machine&spf=187"
req = urllib2.Request(url, headers={'User-Agent' : 'Mozilla/5.0'})
con = urllib2.urlopen( req )
strs = con.read()
print strs
Я получаю большой кусок текста, который выглядит как законный ответ HTTP, но в тексте нет никакого контента, связанного с моим искомым ключом «международная бизнес-машина». Я знаю, что Google, вероятно, обнаружит, что это не запрос от реального браузера, поэтому скройте эту информацию. Могу ли я узнать, есть ли способ обойти это и получить раздел «похожий поиск» в результатах Google? Спасибо.