извлекать данные из Pdf с помощью веб-сбора

Как я могу извлечь данные из PDF с помощью Web Harvesting? Я получаю все соответствующие URL-адреса PDF-файлов на странице, но мне не удалось извлечь данные из этих Pdf. Я использую Web Harvest версии 2.0 для извлечения URL-адреса Pdfs. Пожалуйста помоги.

как мне включить pdfcommand в веб-сбор, чтобы получить текст? Есть ли другой способ сделать это без запуска какого-либо командного файла?

webharvest

user3536614 15.04.2014 источник

Ответы (1)

arrow_upward
0
arrow_downward

Думаю, сбора паутины для этого недостаточно. Вы должны использовать WGET и pdfbox, чтобы получить результат. Сначала загрузите все PDF-файлы через ваш URL-адрес в папку с помощью WGET или самого веб-ресурса. Затем запустите команду pdfbox, чтобы получить текст из PDF-файлов. Вы можете получить некоторые сведения о pdfbox по URL-адресу http://pdfbox.apache.org/commandline/. Вы также можете создать пакетный файл для запуска этих вещей по порядку.

Navin Rawat 16.04.2014

извлекать данные из Pdf с помощью веб-сбора

Ответы (1)

Похожие вопросы