Алгоритм расстояния до слова для OCR

Я работаю с выводом OCR и ищу в нем специальные слова.

Поскольку вывод не является чистым, я ищу элементы, которые соответствуют моим вводам, в соответствии с расстоянием до слова ниже определенного порога.

Однако я чувствую, что расстояние Левенштейна или расстояние Хэмминга не лучший способ, так как OCR всегда делает одни и те же ошибки: I вместо 1, 0 вместо O, Q вместо O... и эти "классические" ошибки кажутся быть менее важным, чем, например, «A вместо K». В результате эти расстояния не заботятся о количестве различий во внешности персонажей (низкое/высокое).

Существует ли какой-либо алгоритм определения расстояния между словами, разработанный специально для OCR, который я могу использовать и который лучше подходит для моего случая? Или я должен эмпирически реализовать свое пользовательское расстояние между словами в соответствии с визуальными различиями символов?

zenbeni 31.03.2014 источник

comment

Если вы когда-нибудь читали исходный код tesseract, вы увидите, что он специально обрабатывает случаи, когда - Lyndon White 31.03.2014

comment

Вы используете tesseract ocr на 64-битной JVM? - marcAntoine 31.03.2014

comment

@manu Нет, я использую ABBYY FineReader. - zenbeni 31.03.2014

comment

то вы работаете с пробной версией - marcAntoine 31.03.2014

comment

@manu нет, это не суд. Почему спрашиваешь? Есть ли какие-то скрытые вещи в платной версии, которые я должен знать? - zenbeni 31.03.2014

Ответы (2)

arrow_upward
2
arrow_downward

Расстояние Левенштейна позволяет указать разные затраты для каждой пары замен (http://en.wikipedia.org/wiki/Levenshtein_distance#Possible_modifications, пункт пятый). Таким образом, вы можете настроить его в соответствии со своими потребностями, уделяя больше или меньше внимания типичным ошибкам.

Yves Daoust 31.03.2014

comment

Я собираюсь попробовать это со стоимостью от 0 до 1 для каждого действия Левенштейна между двумя строками в зависимости от значений char. Это должно дать мне расстояние в два раза. - zenbeni; 31.03.2014

comment

Вы решили эту проблему? Дай мне знать, что нет. Я работаю в ABBYY и готов вам помочь. - Vitalik Kudryavtsev; 05.06.2014

arrow_upward
1
arrow_downward

Если вам нужна пользовательская функция стоимости для несоответствия букв, вы можете посмотреть алгоритм Нидлмана – Вунша (NW).

Википедия http://en.wikipedia.org/wiki/Needleman%E2%80%93Wunsch_algorithm
Документ OCR, связанный с алгоритмом NW http://oro.open.ac.uk/20855/1/paper-15.pdf

Kunukn 31.03.2014

comment

Это хорошее чтение. Использование Needleman-Wunsch для поиска таксономических названий при первом проходе с двумя разными выходными данными OCR. Затем, используя эти имена, найти эти трудные слова на втором проходе во всех документах. Это может сработать. - zenbeni; 31.03.2014

Алгоритм расстояния до слова для OCR

Ответы (2)

Похожие вопросы