Сканирование сайта с динамическими страницами

Мне нужно сканировать веб-сайты и извлекать некоторую информацию из динамически создаваемых страниц после отправки формы.

Информация, которую мне нужно сканировать, в основном будет поступать из баз данных на этих сайтах.

Добавлено:

Краулеры обычно работают, перескакивая с одной гиперссылки на другую. Так что это в основном статические страницы. Как насчет сканирования страниц, которые не присутствуют статически, а создаются на лету?


person AJ.    schedule 08.12.2010    source источник
comment
Это хорошо, вы можете предоставить больше информации?   -  person leppie    schedule 14.12.2010
comment
У меня тоже такая же Проблема. как получить динамический сайт. stackoverflow.com/questions/28085211/   -  person BasK    schedule 22.01.2015


Ответы (1)


С точки зрения краулера большой разницы нет. Вы все еще получаете сгенерированный HTML.

Единственное, с чем нужно быть осторожным, так это со ссылками, ведущими на бесконечное количество страниц, т.е. календарь, который создается динамически и имеет ссылки на следующий/предыдущий месяц/год.

person Kornel    schedule 11.01.2011