Мы разрабатываем систему обнаружения плагиата. Там я должен выделить возможные плагиатные фразы в документе. Документ подвергается предварительной обработке с удалением стоп-слов, корневой основы и удаления номеров. Таким образом, выделение становится трудным с предварительно обработанным токеном As и примером:
Исходный текст: «Экстремальное программирование — это один из подходов к гибкой разработке программного обеспечения, в котором упор делается на частые выпуски коротких циклов разработки, называемых тайм-боксами. Это приводит к снижению затрат на изменения за счет наличия нескольких коротких циклов разработки вместо одного длинного. . Экстремальное программирование включает в себя парное программирование (для проверки кода, модульного тестирования). Кроме того, оно позволяет избежать реализации функций, не включенных в текущий временной интервал, что позволяет свести к минимуму расползание графика».
фраза, которую нужно выделить: Экстремальное программирование включает в себя парное программирование
предварительно обработанный токен: парная программа Extrem
Могу ли я выделить предварительно обработанный токен в исходном документе????
спасибо