Замените html-объекты соответствующими символами utf-8 в Python 2.6.

У меня есть такой html-текст:

&lt;xml ... &gt;

и я хочу преобразовать его во что-нибудь читабельное:

<xml ...>

Любой простой (и быстрый) способ сделать это на Python?

python html-entities python-2.6

Alexandru 08.04.2009 источник

comment

Я думаю, что этот вопрос дублирует это: stackoverflow.com/questions/57708/ - Fred Larson 08.04.2009

comment

Возможный дубликат декодировать объекты HTML в строке Python? - csl 22.09.2016

comment

Лучший подход здесь stackoverflow.com/questions/2360598/ - fmalina 06.11.2019

Ответы (3)

arrow_upward
23
arrow_downward

Python 2.7

Официальная документация для HTMLParser: Python 2.7

>>> import HTMLParser
>>> pars = HTMLParser.HTMLParser()
>>> pars.unescape('&copy; &euro;')
u'\xa9 \u20ac'
>>> print _
© €

Python 3

Официальная документация для HTMLParser: Python 3

>>> from html.parser import HTMLParser
>>> pars = HTMLParser()
>>> pars.unescape('&copy; &euro;')
© €

vartec 08.04.2009

comment

unescape - это просто внутренняя функция HTMLParser (и она не задокументирована в вашей ссылке). однако я мог использовать реализацию. В 10 раз больше - Alexandru; 08.04.2009

comment

@brtzsnr: правда, это недокументировано. Не думайте, что это внутреннее, в конце концов, имя unescape, а не _unescape или __unescape. - vartec; 08.04.2009

arrow_upward
1
arrow_downward

Есть функция здесь, которая выполняет это, как указано в сообщении - указал Фред. Скопировано здесь, чтобы упростить задачу.

Благодарим Фреда Ларсона за ссылку на другой вопрос о SO. Благодарим dF за размещение ссылки.

Benson 08.04.2009

arrow_upward
0
arrow_downward

Современный подход Python 3:

>>> import html
>>> html.unescape('&copy; &euro;')
© €

https://docs.python.org/3/library/html.html

fmalina 06.11.2019

Замените html-объекты соответствующими символами utf-8 в Python 2.6.

Ответы (3)

Python 2.7

Python 3

Похожие вопросы