Wget также может загрузить весь веб-сайт. Но поскольку это может создать большую нагрузку на сервер, wget будет подчиняться файлу robots.txt.
wget -r -p http://www.example.com
Параметр -p сообщает wget, что нужно включить все файлы, включая изображения. Это будет означать, что все файлы HTML будут выглядеть так, как должны.
Так что, если вы не хотите, чтобы wget подчинялся файлу robots.txt? Вы можете просто добавить -e robots = off к команде следующим образом:
wget -r -p -e robots=off http://www.example.com
Поскольку многие сайты не позволяют загружать сайт целиком, они проверяют подлинность вашего браузера. Чтобы обойти это, используйте -U mozilla, как я объяснил выше.
wget -r -p -e robots=off -U mozilla http://www.example.com
Многим владельцам веб-сайтов не понравится тот факт, что вы загружаете их сайт целиком. Если сервер видит, что вы загружаете большое количество файлов, он может автоматически добавить вас в черный список. Чтобы решить эту проблему, подождите несколько секунд после каждой загрузки. Чтобы сделать это с помощью wget, нужно включить --wait = X (где X - количество секунд).
вы также можете использовать параметр: --random-wait, чтобы позволить wget выбрать случайное количество секунд для ожидания. Чтобы включить это в команду:
wget --random-wait -r -p -e robots=off -U mozilla http://www.example.com
person
Ritesh Chandora
schedule
20.06.2012