У меня есть коллекция HTML-документов, для которых мне нужно проанализировать содержимое мета-тегов в разделе «head». Это единственные теги HTML, значения которых меня интересуют, т.е. мне не нужно ничего анализировать в разделе ‹body›.
Я попытался проанализировать эти значения, используя поддержку XPath, предоставляемую JDom. Однако это не очень хорошо работает, потому что большая часть HTML-кода в разделе ‹body› не является допустимым XML.
Есть ли у кого-нибудь какие-либо предложения о том, как я могу анализировать эти значения тегов таким образом, чтобы они могли работать с искаженным HTML?
Привет, Дон