Я работаю с выводом OCR и ищу в нем специальные слова.
Поскольку вывод не является чистым, я ищу элементы, которые соответствуют моим вводам, в соответствии с расстоянием до слова ниже определенного порога.
Однако я чувствую, что расстояние Левенштейна или расстояние Хэмминга не лучший способ, так как OCR всегда делает одни и те же ошибки: I вместо 1, 0 вместо O, Q вместо O... и эти "классические" ошибки кажутся быть менее важным, чем, например, «A вместо K». В результате эти расстояния не заботятся о количестве различий во внешности персонажей (низкое/высокое).
Существует ли какой-либо алгоритм определения расстояния между словами, разработанный специально для OCR, который я могу использовать и который лучше подходит для моего случая? Или я должен эмпирически реализовать свое пользовательское расстояние между словами в соответствии с визуальными различиями символов?