test: example
test1:example1
Elements size = doc.select("div:contains(test:)");
как я могу извлечь пример значения и пример1 из этого тега html.... используя jsoup..
Elements size = doc.select("div:contains(test:)");
как я могу извлечь пример значения и пример1 из этого тега html.... используя jsoup..
Поскольку этот HTML недостаточно семантичен для конечной цели, которую вы преследуете (<br>
не может иметь дочерних элементов, а :
не является HTML), вы мало что можете сделать с парсером HTML, таким как Jsoup. Анализатор HTML не предназначен для извлечения/маркировки определенного текста.
Лучшее, что вы можете сделать, это получить HTML-контент <div>
с помощью Jsoup, а затем извлечь его, используя обычные методы java.lang.String
или, может быть, java.util.Scanner
.
Вот пример запуска:
String html = "<div style=\"height:240px;\"><br>test: example<br>test1:example1</div>";
Document document = Jsoup.parse(html);
Element div = document.select("div[style=height:240px;]").first();
String[] parts = div.html().split("<br />"); // Jsoup transforms <br> to <br />.
for (String part : parts) {
int colon = part.indexOf(':');
if (colon > -1) {
System.out.println(part.substring(colon + 1).trim());
}
}
Это приводит к
example example1
Если бы я был автором HTML, я бы использовал для этого список определений. Например.
<dl id="mydl">
<dt>test:</dt><dd>example</dd>
<dt>test1:</dt><dd>example1</dd>
</dl>
Это более семантично и, следовательно, более легко анализируется:
String html = "<dl id=\"mydl\"><dt>test:</dt><dd>example</dd><dt>test1:</dt><dd>example1</dd></dl>";
Document document = Jsoup.parse(html);
Elements dts = document.select("#mydl dd");
for (Element dt : dts) {
System.out.println(dt.text());
}