У меня есть такой html-текст:
<xml ... >
и я хочу преобразовать его во что-нибудь читабельное:
<xml ...>
Любой простой (и быстрый) способ сделать это на Python?
У меня есть такой html-текст:
<xml ... >
и я хочу преобразовать его во что-нибудь читабельное:
<xml ...>
Любой простой (и быстрый) способ сделать это на Python?
Официальная документация для HTMLParser
: Python 2.7
>>> import HTMLParser
>>> pars = HTMLParser.HTMLParser()
>>> pars.unescape('© €')
u'\xa9 \u20ac'
>>> print _
© €
Официальная документация для HTMLParser
: Python 3
>>> from html.parser import HTMLParser
>>> pars = HTMLParser()
>>> pars.unescape('© €')
© €
Есть функция здесь, которая выполняет это, как указано в сообщении - указал Фред. Скопировано здесь, чтобы упростить задачу.
Благодарим Фреда Ларсона за ссылку на другой вопрос о SO. Благодарим dF за размещение ссылки.
Современный подход Python 3:
>>> import html
>>> html.unescape('© €')
© €
https://docs.python.org/3/library/html.html