анализировать метатеги в Java

У меня есть коллекция HTML-документов, для которых мне нужно проанализировать содержимое мета-тегов в разделе «head». Это единственные теги HTML, значения которых меня интересуют, т.е. мне не нужно ничего анализировать в разделе ‹body›.

Я попытался проанализировать эти значения, используя поддержку XPath, предоставляемую JDom. Однако это не очень хорошо работает, потому что большая часть HTML-кода в разделе ‹body› не является допустимым XML.

Есть ли у кого-нибудь какие-либо предложения о том, как я могу анализировать эти значения тегов таким образом, чтобы они могли работать с искаженным HTML?

Привет, Дон

Dónal 18.11.2008 источник

comment

возможный дубликат Быстрый способ найти значение в HTML (Java) (хотя ответы здесь лучше) - outis 29.03.2012

Ответы (3)

arrow_upward
6
arrow_downward

Вероятно, вы можете использовать парсер Jericho HTML. В частности, взгляните на это, чтобы узнать, как вы можете о поиске конкретных тегов.

bdumitriu 18.11.2008

arrow_upward
2
arrow_downward

Если это подходит вашему приложению, вы можете использовать Tidy для преобразования HTML в действительный XML, а затем использовать как можно больше XPath. тебе нравится!

activout.se 18.11.2008

arrow_upward
0
arrow_downward

JTidy должен стать хорошей отправной точкой для этого.

James Van Huis 18.11.2008

анализировать метатеги в Java

Ответы (3)

Похожие вопросы