Извлечение информации - деловые документы

в настоящее время я пытаюсь извлечь информацию, например. отправителя или получателя из деловых документов, таких как счета. Документы были обработаны с помощью программного обеспечения для распознавания текста в XML-файлы, поэтому они снабжены аннотациями с характеристиками форматирования. Я хочу извлечь конкретную информацию из нового документа после аннотирования одного аналогичного документа вручную с такими функциями, как отправитель и получатель.

Поэтому мой вопрос заключается в том, существует ли алгоритм обучения или сопоставления, способный извлекать конкретные данные путем сравнения только с одним или двумя примерами похожих документов. Если да: есть ли какая-то инфраструктура Java, способная на это?

С благодарностью

маггу


comment
Как вы хотите соответствовать? Что делать, если два документа не имеют ничего общего? Когда есть один документ, ищем ли мы идеальное совпадение?   -  person Mark    schedule 22.06.2013
comment
Предположим, что документы похожи, например, два счета на основе одного и того же шаблона. После аннотирования первого я хочу извлечь информацию о втором, третьем и т. д.   -  person maggu    schedule 22.06.2013


Ответы (1)


Если структура XML всегда одна и та же (с использованием одного и того же шаблона):

Просто сохраните родительские узлы XML выбранных узлов, где находится информация, чтобы вы знали путь к информации. Не должно быть проблем - тривиальная задача.


Если вам нужно найти информацию:

Он может работать, создавая определенные правила извлечения признаков, а затем используя эти признаки для обучения машины опорных векторов обнаружению областей, в которых находится информация.

Однажды я задал аналогичный вопрос Алгоритм сопоставления естественного текста в почте.

Но это далеко не тривиально и определенно требует более одного или двух учебных документов.

person snøreven    schedule 24.06.2013