Сохранение динамического содержимого с веб-страницы?

Можно ли сохранить динамический текст с веб-сайта и сбросить его в файл на моем сервере? Конкретный случай, который меня интересует, - это сохранение названия песни с этой страницы http://www.z1035.com/player.php и сохранить все названия песен в файле на моем сервере. Это возможно? Какие методы я мог бы использовать для этого?


person Atomix    schedule 04.08.2009    source источник


Ответы (2)


То, что вы имеете в виду, обычно известно как «скрапинг». Вот статья об одном из способов сделать это с помощью PHP:

http://www.developertutorials.com/blog/php/easy-screen-scraping-in-php-simple-html-dom-library-simplehtmldom-398/

person Amber    schedule 04.08.2009

На мой взгляд, библиотека URLLib в Python упрощает парсинг.

import urllib, re

url = "http://www.z1035.com/player.php"
f = urllib.urlopen(url)
t = f.read()
#  use regular expression here 
m = re.search(t, "some pattern")
print m.group(1)

Это загрузит внешний ресурс, как если бы это был локальный файл, и позволит вам проанализировать его по мере необходимости.

Когда-то я хотел сохранить все списки треков для радиопередачи, которую я слушал. Я использовал Python для загрузки списка всех списков треков, а затем для программного просмотра каждого из них и добавления содержимого в файл. Это было очень удобно и занимало, наверное, 20 строк.

person Willi Ballenthin    schedule 04.08.2009