Вопросы по теме 'lxml.html'

python — анализировать html-форму с помощью lxml.html с синтаксисом xpath
Вот форма. Одна и та же точная форма встречается в источнике дважды. <form method="POST" action="/login/?tok=sess"> <input type="text" id="usern" name="username" value="" placeholder="Username"/> <input type="password" id="passw"...
2702 просмотров
schedule 12.01.2023

Цель lxml.htm.clean удалить «стиль» из тегов.
Я использую lxml.html.clean для очистки html. Кажется, атрибуты стиля удаляются из всех тегов, и для моих целей мне нужно, чтобы атрибуты стиля не удалялись. Прежде чем я начну разрешать, я хочу понять, есть ли какие-либо последствия для...
492 просмотров

печать html-объектов с использованием lxml в python
Я пытаюсь создать элемент div из приведенной ниже строки с объектами html. Поскольку моя строка содержит объекты html, & зарезервированный символ в объекте html экранируется как &amp; на выходе. Таким образом, объекты html отображаются...
1687 просмотров
schedule 27.12.2022

Использование lxml для проверки HTML
Я пытаюсь использовать lxml для проверки фрагмента HTML, но он жалуется, что фрагмент недействителен, хотя он должен быть действительным: img = """<img src="http://api.com/?data=ey&ip=1&img=1" height="1" width="1">""" parser =...
498 просмотров
schedule 03.06.2023

lxml.html игнорирует атрибуты класса body
Я использую lxml.html для анализа содержимого html. Но я не понимаю, почему lxml отбрасывает атрибуты тега «тело». Пробовал использовать как lxml.html.parse, так и lxml.html.document_fromstring, как предложено здесь Но все же это не работает....
92 просмотров
schedule 19.10.2023

Разобрать ссылку буфера обмена Lotus Notes с помощью lxml
Я пытаюсь разобрать ссылку на документ Lotus Notes (взятую из буфера обмена), чтобы преобразовать ее в notes:// URL/URI. Из параметров буфера обмена видно, что получение данных из текстового формата является более простым способом преобразования....
798 просмотров
schedule 19.11.2022

Используя XPath, выберите узел без текстового брата
Я хочу извлечь некоторые элементы HTML с помощью python3 и парсера HTML, предоставленного lxml. Рассмотрим этот HTML: <!DOCTYPE html> <html> <body> <span class="foo"> <span class="bar">bar</span>...
292 просмотров
schedule 01.04.2022

вырезать дерево XML на определенной глубине
У меня есть xmlfiles, подобные этому: <bs-submission participant-id="tagger1" run-id="first annotations with the prospectus tagger" task="book-toc" toc-creation="manual" toc-source="full-content"> <source-files pdf="yes" xml="no"/>...
45 просмотров
schedule 05.06.2023

Лучшие практики XPath для извлечения данных из поля, формат которого различается
Я использовал Python 3.8, XPath и Scrapy, где все, казалось, работало. Я принял свои выражения XPath как должное. Теперь я должен использовать Python 3.8, XPath и lxml.html, и все гораздо менее щадяще. Например, используя этот URL и этот XPath:...
22 просмотров
schedule 09.07.2023