Какие библиотеки синтаксического анализа HTML вы рекомендуете в Java

Я хочу проанализировать некоторый HTML, чтобы найти значения некоторых атрибутов / тегов и т. Д.

Какие парсеры HTML вы рекомендуете? Есть плюсы и минусы?


person pek    schedule 25.08.2008    source источник


Ответы (3)


NekoHTML, TagSoup, а JTidy позволит вам нужно проанализировать HTML, а затем обработать его с помощью инструментов XML, таких как XPath.

person jelovirt    schedule 25.08.2008
comment
XPath - это способ синтаксического анализа HTML, он помогает в случае плохо сформированного HTML, а также в случае сбоя регулярного выражения. - person Sumit Ghosh; 14.05.2010

Я пробовал HTML Parser, который очень прост.

person pek    schedule 25.08.2008
comment
Я использовал HTML-парсер в своем проекте, и он работал точно так, как ожидалось. - person Craig Angus; 27.09.2008
comment
но доступных обучающих программ не так много ... - person Lily; 07.07.2009
comment
Я заметил, что множество фрагментов javascript (и атрибутов элементов) проникают в мои предположительно извлечения текстовых узлов. Также были случаи, когда искаженный HTML приводил к сбою всей операции синтаксического анализа. Итак, я хочу заменить библиотеку htmlparser в моем собственном проекте на что-нибудь получше. - person benjismith; 16.03.2011

Вам нужно сделать полный разбор HTML? Если вы просто ищете определенные значения в содержимом (конкретный тег / параметр), то простого регулярного выражения может быть достаточно, и он вполне может быть быстрее.

person Herms    schedule 25.08.2008