Я использовал JSoup для анализа текстов песен, и до сих пор это было здорово, но столкнулся с проблемой.
Я могу использовать Node.html()
для возврата полного HTML-кода нужного узла, который сохраняет разрывы строк как таковые:
Glóandi augu, silfurnátt
<br />Blóð alvöru, starir á
<br />Óður hundur er í vígamóð, í maga... mér
<br />
<br />Kolniður gref, kvik sem dreg hér
<br />Kolniður svart, hvergi bjart né
Но имеет неприятный побочный эффект, как вы можете видеть, сохранение HTML-сущностей и тегов.
Однако, если я использую Node.text()
, я могу получить более красивый результат, свободный от тегов и сущностей:
Glóandi augu, silfurnátt Blóð alvöru, starir á Óður hundur er í vígamóð, í maga... mér Kolniður gref, kvik sem dreg hér Kolniður svart,
Что имеет еще один неприятный побочный эффект удаления разрывов строк и сжатия в одну строку.
Простая замена <br />
из узла перед вызовом Node.text()
дает тот же результат, и кажется, что этот метод сжимает текст в одну строку в самом методе, игнорируя новые строки.
Возможно ли получить лучшее из обоих миров и правильно заменить теги и объекты, сохранив разрывы строк, или есть другой метод или способ декодирования объектов и удаления тегов без необходимости их замены вручную?