Я использую парсер html (Neko), чтобы извлечь свободный текст html-документа. Поскольку меня интересует семантика текста, я должен уделить особое внимание расстоянию между словами, которое отображается в браузере.
Например:
<H1>My
title</H1>
<P>Hello
World</P>
Отображается как:
My title
Hello world
При содержании абзаца внутри тегов <pre>
или со стилем:
<style>
p { white-space:pre; }
</style>
будет результат:
My title
Hello
World
к которому я хотел бы относиться по-другому, поскольку «Привет» в этом отношении не семантически связано со словом «Мир». Как сказано в других сообщениях, есть разница между тем, что делает синтаксический анализ, и тем, что делает рендеринг. Меня интересует связь между словами, как она появляется после рендеринга, поскольку, очевидно, синтаксический анализ не разрушает пробелы, как это было бы показано в браузере.
Есть ли способ извлечь текст с пробелами из html, когда он читается в браузере?
Hello World
иHello[ Spaces ]World
из html-кода в соответствии с тем, как он отображается в браузере. - person Y_key   schedule 12.03.2013