Я создал инструмент для извлечения PDF. Образец экрана прилагается. Пользователь может загрузить PDF-файл и выбрать нужную ему область данных. Затем я беру координаты PDF и номер страницы, а затем сохраняю их как шаблон. После того, как пользователь предоставит список файлов PDF, инструмент сможет извлекать данные в соответствии с файлом шаблона. Мой инструмент очень похож на этот.
Теперь проблема в том, что иногда в некоторых pdf-файлах часть данных, необходимых для извлечения, перемещается на следующую страницу. (Причина смещения: я приведу пример. Если вы считаете, что в счете со списком товаров, которые вы приобрели, место печати «Общая стоимость» зависит от количество товаров, которые вы купили: если это длинный список, общая сумма идет внизу, в противном случае - в середине или почти вверху).
Поэтому сейчас я думаю о том, чтобы определить структуру pdf вместо получения координат.
Но у меня нет четкой идеи, как это сделать. Пожалуйста, поделитесь чем-нибудь, что, по вашему мнению, поможет решить эту проблему. Еще раз повторяю, что я пытаюсь получить данные из pdf. Таким образом, можно зафиксировать структуру файла pdf.
Моя идея заключается в том, что если я могу идентифицировать структуру, то я могу сказать, где находится ценность. Например, я попытался преобразовать pdf в html и попытаться перемещаться по значениям тега html. (body->div->table->td-> и т. д.) Но это не удалось.. :(