Как не получить содержимое дочерних элементов в HtmlUnit?

У меня есть следующее:

<th>
Q4/10
<br>
<span> Nov 30, 2010 </span>
</th>

и я хотел бы получить Q4/10, но не следующую дату. Я не уверен, как это сделать в HtmlUnit. Я знаю, что могу разделить оба элемента по пробелам, а затем взять все до первого пробела, но я ищу что-то на основе самих тегов.


person Lostsoul    schedule 03.05.2011    source источник


Ответы (1)


Если вы знаете, что нужный вам текст находится перед какими-либо подэлементами, вы можете просто взять его первый дочерний элемент, который будет содержать ваш текст и некоторые пробелы:

HtmlTableHeaderCell th = ...
System.err.println( th.getFirstChild().toString().trim() ) ;

Более общим решением было бы перебирать дочерние элементы th в поисках текстовых узлов и игнорировать подэлементы.

person Rodney Gitzel    schedule 03.05.2011
comment
Спасибо Родни. Я этого не знал. Я думал, что дочерние элементы были только тем, что было ниже того, что я искал. Я проверю это. Спасибо. - person Lostsoul; 04.05.2011