Мне нужно разобрать несколько (читать около 1600) HTML-страниц и вытащить содержимое следующего тега из каждого файла.
textarea name="line" cols="66" rows="5" class="textbox" id="line" style="font-size:12px;" onkeydown="textCounter()" onkeyup="textCounter(); storeCaret(this);" onselect="storeCaret(this);" onclick="storeCaret(this);">TEXT I WANT IS HERE
(на самом деле это тег текстовой области html). Я думал, что смогу использовать DOMparser, но файлы содержат слишком много ошибок, и поэтому я наткнулся на JTidy из другого вопроса здесь, в stackoverflow, и я попытался использовать это. ..
Но это, похоже, не может преобразовать html с любой из страниц в XHTML, поэтому я могу использовать анализатор DOM.
Затем я подумал, что могу использовать регулярное выражение, но я не мог найти конкретное выражение, необходимое для извлечения этого текста, а также я наткнулся на несколько вопросов/ответов, в которых говорилось НЕ использовать регулярное выражение для анализа HTML...
Итак, по сути, мой вопрос: есть ли другой подход, чтобы получить нужный мне текст из искаженного html?