Tabula-py для извлечения таблицы без полей

Может ли кто-нибудь предложить мне, как извлечь табличные данные из PDF-файла с помощью программы python/java для приведенной ниже таблицы без полей, представленной в файле PDF?

введите здесь описание изображения


person Richie    schedule 17.07.2018    source источник


Ответы (2)


Эта таблица может быть сложной для таблы. Как насчет использования guess=False, stream=True ?

Обновление: начиная с tabula-py 1.0.3, guess и stream должны работать вместе. Нет необходимости устанавливать guess=False для использования опции stream или lattice.

person chezou    schedule 08.08.2018
comment
Привет @chezou Спасибо за ваш комментарий. Я попробовал ваш ответ с приведенным ниже кодом tabula.convert_into("/Downloads/Test_Invoices/Invoice4.pdf", "/Downloads/Test_Invoices/Invoice4.csv", output_format="csv",spreadsheets=True,guess=False, stream=True) , но таблица не была извлечена - person Richie; 08.08.2018
comment
Привет @chezou, Какие другие библиотеки, связанные с Python/Java, вы знаете? - person Richie; 08.08.2018
comment
Я рекомендую вам установить опцию pages. По умолчанию tabula-py устанавливает 1. - person chezou; 09.08.2018
comment
Привет @chezou, как мне это сделать? Я не совсем знаком с указанием этих значений параметров. - person Richie; 09.08.2018
comment
Вот мой код df = tabula.read_pdf("/Downloads/Invoice1.pdf",guess=False, stream=True) print(df) - person Richie; 09.08.2018
comment
установите pages="all" или pages=2 вместо read_pdf() или convert_into(). Для дальнейших подробностей было бы неплохо, если бы вы прочитали руководство github. com/chezou/tabula-py/blob/master/README.md или вы можете проверить тестовые коды github.com/chezou/tabula-py/blob/master/tests/ - person chezou; 09.08.2018
comment
Спасибо за ваше обновление, я обновил свой код и просмотрел документы, как вы упомянули, но не надеюсь извлечь его. Хорошо, я работаю над кодом Python invoice2Data на Github, и это немного помогает. Просто нужно сделать этот процесс автоматизированным. Большое спасибо за ваше приложение. Это здорово..! - person Richie; 09.08.2018

Это может помочь

import tabula
df = tabula.read_pdf("nar_2021_editorial-3.pdf", pages="all", guess=False, stream=True)
person zhangjq    schedule 06.07.2021