Может ли кто-нибудь предложить мне, как извлечь табличные данные из PDF-файла с помощью программы python/java для приведенной ниже таблицы без полей, представленной в файле PDF?
Tabula-py для извлечения таблицы без полей
Ответы (2)
Эта таблица может быть сложной для таблы. Как насчет использования guess=False, stream=True
?
Обновление: начиная с tabula-py 1.0.3, guess
и stream
должны работать вместе. Нет необходимости устанавливать guess=False
для использования опции stream
или lattice
.
person
chezou
schedule
08.08.2018
Привет @chezou Спасибо за ваш комментарий. Я попробовал ваш ответ с приведенным ниже кодом
tabula.convert_into("/Downloads/Test_Invoices/Invoice4.pdf", "/Downloads/Test_Invoices/Invoice4.csv", output_format="csv",spreadsheets=True,guess=False, stream=True)
, но таблица не была извлечена
- person Richie; 08.08.2018
Привет @chezou, Какие другие библиотеки, связанные с Python/Java, вы знаете?
- person Richie; 08.08.2018
Я рекомендую вам установить опцию
pages
. По умолчанию tabula-py устанавливает 1.
- person chezou; 09.08.2018
Привет @chezou, как мне это сделать? Я не совсем знаком с указанием этих значений параметров.
- person Richie; 09.08.2018
Вот мой код
df = tabula.read_pdf("/Downloads/Invoice1.pdf",guess=False, stream=True) print(df)
- person Richie; 09.08.2018
установите
pages="all"
или pages=2
вместо read_pdf()
или convert_into()
. Для дальнейших подробностей было бы неплохо, если бы вы прочитали руководство github. com/chezou/tabula-py/blob/master/README.md или вы можете проверить тестовые коды github.com/chezou/tabula-py/blob/master/tests/
- person chezou; 09.08.2018
Спасибо за ваше обновление, я обновил свой код и просмотрел документы, как вы упомянули, но не надеюсь извлечь его. Хорошо, я работаю над кодом Python invoice2Data на Github, и это немного помогает. Просто нужно сделать этот процесс автоматизированным. Большое спасибо за ваше приложение. Это здорово..!
- person Richie; 09.08.2018
Это может помочь
import tabula
df = tabula.read_pdf("nar_2021_editorial-3.pdf", pages="all", guess=False, stream=True)
person
zhangjq
schedule
06.07.2021