Мне нужно проанализировать текст на наличие в нем запрещенных слов. Допустим, в черном списке есть слово: «Запретить». Слово имеет много форм. В тексте слово может быть, например: «запрещающий», «запрещенный», «запрещающий». Чтобы привести слово к исходному виду, я использую процесс лемматизации. Твои предложения?
А как насчет опечаток?
Например: «F0rb1d». Думаю использовать дамерау – Левенштейна или другое. Вы предложения?
А что делать, если текст написан так:
«Запрещенная информация. Личная переписка компании». ИЛИ "F0rb1dden1nformation.Privatecorresp0ndenceofthec0mpany." (да, без пробелов)
Как решить эту проблему?
Желательно быстрый алгоритм, т.к. текст обрабатывается в реальном времени.
А может какие советы по повышению производительности (как хранить и т. Д.)?