Это может быть тривиально или нет, но я работаю над частью программного обеспечения, которое будет проверять домен «конец строки» для объявлений, отображаемых через мое веб-приложение. В идеале у меня есть список доменов, с которых я не хочу показывать рекламу (скажем, Norton.com является одним из них), но большинство рекламных сетей показывают рекламу через сокращенные и загадочные URL-адреса (adsrv.com), которые в конечном итоге перенаправляют на Нортон.com. Итак, вопрос: кто-нибудь создал или имеет представление о том, как создать инструмент, похожий на скребок, который будет возвращать конечный целевой URL-адрес объявления.
Первоначальное обнаружение: некоторые объявления представлены во Flash, JavaScript или простом HTML. Эмуляция браузера вполне жизнеспособна и будет бороться с различными форматами рекламы. Не все объявления Flash или JS имеют альтернативу noflash или noscript. (Возможно, потребуется браузер, но, как уже говорилось, это совершенно нормально... Использование чего-то вроде WatiN, WatiR, WatiJ, Selenium и т. д.)
Предпочитаю открытый исходный код, чтобы я мог восстановить его сам. Очень ценю помощь!
РЕДАКТИРОВАТЬ * Этот скрипт должен щелкнуть по объявлению, поскольку это может быть Flash, JS или просто HTML. Таким образом, Curl менее вероятен, если только Curl не может щелкнуть?