анализировать метатеги в Java

У меня есть коллекция HTML-документов, для которых мне нужно проанализировать содержимое мета-тегов в разделе «head». Это единственные теги HTML, значения которых меня интересуют, т.е. мне не нужно ничего анализировать в разделе ‹body›.

Я попытался проанализировать эти значения, используя поддержку XPath, предоставляемую JDom. Однако это не очень хорошо работает, потому что большая часть HTML-кода в разделе ‹body› не является допустимым XML.

Есть ли у кого-нибудь какие-либо предложения о том, как я могу анализировать эти значения тегов таким образом, чтобы они могли работать с искаженным HTML?

Привет, Дон


person Dónal    schedule 18.11.2008    source источник
comment
возможный дубликат Быстрый способ найти значение в HTML (Java) (хотя ответы здесь лучше)   -  person outis    schedule 29.03.2012


Ответы (3)


Вероятно, вы можете использовать парсер Jericho HTML. В частности, взгляните на это, чтобы узнать, как вы можете о поиске конкретных тегов.

person bdumitriu    schedule 18.11.2008

Если это подходит вашему приложению, вы можете использовать Tidy для преобразования HTML в действительный XML, а затем использовать как можно больше XPath. тебе нравится!

person activout.se    schedule 18.11.2008

JTidy должен стать хорошей отправной точкой для этого.

person James Van Huis    schedule 18.11.2008