Я заключил «перестановку фрагментов» в кавычки, потому что не знаю, каким должен быть технический термин. Было бы очень полезно просто знать, есть ли у процесса технический термин.
В статье в Википедии о дистанции редактирования дается хорошее представление об этой концепции.
Принимая во внимание "перестановку фрагментов", я имею в виду, что
Turing, Alan.
должен соответствовать
Alan Turing
точнее, чем соответствует
Turing Machine
Т.е. расчет расстояния должен определять, когда подстроки текста просто перемещались внутри текста. Это не относится к общей формуле расстояния Левенштейна.
Строки будут состоять максимум из нескольких сотен символов - это имена авторов или списки имен авторов, которые могут быть в различных форматах. Я не занимаюсь секвенированием ДНК (хотя подозреваю, что люди, которые это делают, немного знают об этом предмете).