в настоящее время я пытаюсь извлечь информацию, например. отправителя или получателя из деловых документов, таких как счета. Документы были обработаны с помощью программного обеспечения для распознавания текста в XML-файлы, поэтому они снабжены аннотациями с характеристиками форматирования. Я хочу извлечь конкретную информацию из нового документа после аннотирования одного аналогичного документа вручную с такими функциями, как отправитель и получатель.
Поэтому мой вопрос заключается в том, существует ли алгоритм обучения или сопоставления, способный извлекать конкретные данные путем сравнения только с одним или двумя примерами похожих документов. Если да: есть ли какая-то инфраструктура Java, способная на это?
С благодарностью
маггу