JTidy Node.findBody() — Как использовать?

Я пытаюсь выполнить синтаксический анализ XHTML DOM с помощью JTidy, и это кажется довольно нелогичной задачей. В частности, есть метод разбора HTML:

Node Tidy.parse(Reader, Writer)

И чтобы получить ‹тело /› этого узла, я полагаю, я должен использовать

Node Node.findBody(TagTable)

Где я должен получить экземпляр этого TagTable? (Конструктор защищен, и я не нашел фабрику по его производству.)

Я использую JTidy 8.0-SNAPSHOT.


person ansgri    schedule 21.10.2008    source источник


Ответы (2)


Я нашел намного более простой способ извлечения тела:

tidy = new Tidy();
tidy.setXHTML(true);
tidy.setPrintBodyOnly(true);

А затем используйте tidy для пары Reader-Writer.

Просто, как и должно быть.

person ansgri    schedule 21.10.2008

Вместо этого вы можете использовать метод parseDOM, который даст вам org.w3c.dom.Document назад:

Document document = Tidy.parseDOM(reader, writer);
Node body = document.getElementsByTagName("body").item(0);
person Jonny Buchanan    schedule 21.10.2008