Я хочу иметь возможность загружать полные истории нескольких тысяч статей с http://en.wikipedia.org/wiki/Special:Export, и я ищу программный подход для его автоматизации. Я хочу сохранить результат в формате XML.
Вот мой запрос в Википедии. Я начал следующее в Python, но это не дало никакого полезного результата.
#!/usr/bin/python
import urllib
import codecs
f = codecs.open('workfile.xml', 'w',"utf-8" )
class AppURLopener(urllib.FancyURLopener):
version = "Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11"
urllib._urlopener = AppURLopener()
query = "http://en.wikipedia.org/w/index.php?title=Special:Export&action=submit"
data = { 'catname':'English-language_Indian_films','addcat':'', 'wpDownload':1 }
data = urllib.urlencode(data)
f = urllib.urlopen(query, data)
s = f.read()
print (s)