Извлечение информации - деловые документы

в настоящее время я пытаюсь извлечь информацию, например. отправителя или получателя из деловых документов, таких как счета. Документы были обработаны с помощью программного обеспечения для распознавания текста в XML-файлы, поэтому они снабжены аннотациями с характеристиками форматирования. Я хочу извлечь конкретную информацию из нового документа после аннотирования одного аналогичного документа вручную с такими функциями, как отправитель и получатель.

Поэтому мой вопрос заключается в том, существует ли алгоритм обучения или сопоставления, способный извлекать конкретные данные путем сравнения только с одним или двумя примерами похожих документов. Если да: есть ли какая-то инфраструктура Java, способная на это?

С благодарностью

маггу

maggu 22.06.2013 источник

comment

Как вы хотите соответствовать? Что делать, если два документа не имеют ничего общего? Когда есть один документ, ищем ли мы идеальное совпадение? - Mark 22.06.2013

comment

Предположим, что документы похожи, например, два счета на основе одного и того же шаблона. После аннотирования первого я хочу извлечь информацию о втором, третьем и т. д. - maggu 22.06.2013

Ответы (1)

arrow_upward
0
arrow_downward

Если структура XML всегда одна и та же (с использованием одного и того же шаблона):

Просто сохраните родительские узлы XML выбранных узлов, где находится информация, чтобы вы знали путь к информации. Не должно быть проблем - тривиальная задача.

Если вам нужно найти информацию:

Он может работать, создавая определенные правила извлечения признаков, а затем используя эти признаки для обучения машины опорных векторов обнаружению областей, в которых находится информация.

Однажды я задал аналогичный вопрос Алгоритм сопоставления естественного текста в почте.

Но это далеко не тривиально и определенно требует более одного или двух учебных документов.

snøreven 24.06.2013

Извлечение информации - деловые документы

Ответы (1)

Похожие вопросы