Сканирование сайта с динамическими страницами

Мне нужно сканировать веб-сайты и извлекать некоторую информацию из динамически создаваемых страниц после отправки формы.

Информация, которую мне нужно сканировать, в основном будет поступать из баз данных на этих сайтах.

Добавлено:

Краулеры обычно работают, перескакивая с одной гиперссылки на другую. Так что это в основном статические страницы. Как насчет сканирования страниц, которые не присутствуют статически, а создаются на лету?

dom aggregation web-crawler

AJ. 08.12.2010 источник

comment

Это хорошо, вы можете предоставить больше информации? - leppie 14.12.2010

comment

У меня тоже такая же Проблема. как получить динамический сайт. stackoverflow.com/questions/28085211/ - BasK 22.01.2015

Ответы (1)

arrow_upward
1
arrow_downward

С точки зрения краулера большой разницы нет. Вы все еще получаете сгенерированный HTML.

Единственное, с чем нужно быть осторожным, так это со ссылками, ведущими на бесконечное количество страниц, т.е. календарь, который создается динамически и имеет ссылки на следующий/предыдущий месяц/год.

Kornel 11.01.2011

Сканирование сайта с динамическими страницами

Ответы (1)

Похожие вопросы