как получить полный HTML-контент со страницы результатов поиска Google

Я новичок в веб-сканировании, спасибо за помощь. Задача, которую мне нужно выполнить, — получить полный возвращаемый HTTP-ответ от поиска Google. При поиске в Google по поисковому ключевому слову в браузере на возвращаемой странице есть раздел:

Поиски, связанные с XXXX (где XXXX — искомые слова)

Мне нужно извлечь этот раздел веб-страницы. По моим исследованиям, большинство текущих пакетов сканирования Google не могут извлечь этот раздел информации. Я попытался использовать urllib2 со следующим кодом:

import urllib2
url = "https://www.google.com.sg/search? q=test&ie=&oe=#q=international+business+machine&spf=187"
req = urllib2.Request(url, headers={'User-Agent' : 'Mozilla/5.0'})
con = urllib2.urlopen( req )
strs = con.read()
print strs

Я получаю большой кусок текста, который выглядит как законный ответ HTTP, но в тексте нет никакого контента, связанного с моим искомым ключом «международная бизнес-машина». Я знаю, что Google, вероятно, обнаружит, что это не запрос от реального браузера, поэтому скройте эту информацию. Могу ли я узнать, есть ли способ обойти это и получить раздел «похожий поиск» в результатах Google? Спасибо.


person user1750197    schedule 18.04.2017    source источник


Ответы (1)


как указал @anonyXmous. полезный пост, на который можно сослаться, находится здесь:

Очистка веб-поиска Google с помощью Python

с участием

from requests import get
keyword = "internation business machine"
url = "https://google.com/search?q="+keyword
raw = get(url).text
print raw

Я могу получить нужный текст в «сыром» виде.

person user1750197    schedule 18.04.2017
comment
Проблема в том, что я не получаю содержимое реальной страницы (та, которую я получаю, когда вставляю международную бизнес-машину в поиск Google и нажимаю Enter)... - person the_economist; 14.04.2021