Лучшее решение для этого варианта использования — запросить у веб-сайтов разрешение на то, что вы делаете. Затем они внесут вас в белый список или, что еще лучше, укажут вам на внутренний API, откуда вы сможете получать интересные данные гораздо более эффективным способом, чем HTML.
[EDIT] Я не слышал о (законном) техническом решении для этого. Преступники используют огромные сети ботов с тысячами взломанных компьютеров для подобных вещей, но я настоятельно рекомендую вам держаться от этого подальше.
Я также еще не встречал страницу, которая допускает только три загрузки в день. Это серьезное ограничение говорит мне, что эти люди действительно одержимы своими данными. Попытка обойти их защиту может привести к неприятностям (как бы глупо это ни выглядело с вашей стороны). Если они и вы находитесь в США, приготовьтесь к судебному преследованию за нарушение CFAA. Это случалось и раньше по менее серьезным причинам.
Теперь немного технических подробностей. Вы не говорите, как вы подключаетесь к Интернету. Если вы получаете свой IP-адрес через DHCP, вам нужно попросить своего интернет-провайдера предоставить другой адрес. С их стороны это будет ручной процесс, поэтому приготовьтесь к тому, что с их стороны будет мало энтузиазма.
Tor звучит как хорошее решение, поскольку луковая маршрутизация должна каждый раз отправлять ваш запрос с другим выходным узлом. Но существует только (относительно) небольшое количество выходных узлов, поэтому есть вероятность, что через относительно короткий промежуток времени вы попробуете каждый узел три раза (это становится хуже, если другие люди подключаются к тому же сервису, что и вы).
[EDIT2] Одним из возможных решений может быть стать интернет-провайдером и официально купить блок IP-адресов (как это делает любой нормальный интернет-провайдер).
Блокировка IPv6 не должна быть такой дорогой, но будьте осторожны, они ничего не дадут, если сервис работает только с IPv4! Если это так, то между вами и сервисом будет мост IPv6-IPv4, и он будет думать, что вы всегда используете один и тот же адрес.
Попытка купить IPv4-адреса на данный момент вероятно, безнадежна (ну, может быть, вы можете получить блокировку, если вы готовы потратить много денег).
person
Aaron Digulla
schedule
03.10.2013