Отсканированные документы и запросы к базе данных

Я работаю над проектом, который требует от меня сравнения печатной библиографии (около 14000 наименований) с цифровым каталогом/базой данных. Можно ли 1. отсканировать библиографию, 2. запустить ее через программу OCR, 3. (необязательно) преобразовать отсканированный файл в электронную таблицу, 4. сравнить эту информацию с библиотечным каталогом, т. е. посмотреть, есть ли элементы в библиография появится в коллекции каталогов?

Это значительно сократит время, необходимое для этого проекта в настоящее время.


person Dilettante    schedule 04.03.2014    source источник


Ответы (1)


Да, это определенно возможно.

Это интересный проект, необычный, и требует немного МакГайвера.

Описанные вами действия верны. Имейте в виду, что план максимальной автоматизации для результатов OCR не должен быть идеальным, поэтому ваш алгоритм поиска должен допускать некоторую гибкость и нечеткость, достаточную для учета случайных ошибок OCR, но достаточно конкретную, чтобы не вызывать ложных срабатываний.

person Ilya Evdokimov    schedule 05.03.2014