Мне нужно сделать некоторый разбор HTML с помощью python. После некоторых исследований lxml кажется моим лучшим выбором, но мне трудно найти примеры, которые помогут мне в том, что я пытаюсь сделать. вот почему я слышу. Мне нужно очистить страницу от всего видимого текста.. удалить все теги и javascript.. Мне нужно, чтобы он оставил мне текст, который можно просмотреть. звучит достаточно просто .. я сделал это с помощью HTMLParser, но он плохо обрабатывает javascript
class HTML2Text(HTMLParser.HTMLParser):
def __init__(self):
HTMLParser.HTMLParser.__init__(self)
self.output = cStringIO.StringIO()
def get_text(self):
return self.output.getvalue()
def handle_data(self, data):
self.output.write(data)
def ParseHTML(source):
p = HTML2Text()
p.feed(source)
text = p.get_text()
return text
Любые идеи для способа сделать это с помощью lxml или лучший способ сделать это HTMLParser.. HTMLParser будет лучше, потому что дополнительные библиотеки не нужны.. спасибо всем
Скотт Ф.