Существует множество парсеров и лексеров для скриптов (то есть структурированных компьютерных языков). Но я ищу тот, который может разбить (почти) неструктурированный текстовый документ на более крупные разделы, например. главы, параграфы и т.
Человеку относительно легко идентифицировать их: где оглавление, благодарности или где начинается основная часть, и можно построить системы на основе правил для идентификации некоторых из них (например, абзацев).
Я не ожидаю, что он будет идеальным, но знает ли кто-нибудь о таком широком «блочном» лексере/парсере? Или не могли бы вы указать мне направление литературы, которая может помочь?