Я хотел бы преобразовать HTML в обычный текст, но сохранить минимальную структуру.
- Все разделы, которые содержат информацию, которую должен видеть только браузер, например ‹script› и ‹style›, должны быть полностью удалены.
- Преобразуйте все блочные теги в ‹div›, а все встроенные теги в ‹span› или полностью удалите встроенные строки, не оставляя пробелов, и превратите все, что ограничено уровнями блоков, в абзацы с двумя разрывами строк.
Идея состоит в том, чтобы превратить случайные веб-страницы во что-то подходящее для обработки текста на естественном языке без артефактов, оставшихся от наивного удаления разметки, искусственного разбиения слов или превращения несвязанных блоков в предложения.
Любой двоичный файл, библиотека или исходный код на любом языке программирования в порядке.
Есть ли стандартный исходный код, предпочтительно машиночитаемый, с полным списком элементов, определяющих, какие элементы являются блочными, какие встроенными, а какие похожи на «скрипт» и «стиль» выше?