извлекать данные из Pdf с помощью веб-сбора

Как я могу извлечь данные из PDF с помощью Web Harvesting? Я получаю все соответствующие URL-адреса PDF-файлов на странице, но мне не удалось извлечь данные из этих Pdf. Я использую Web Harvest версии 2.0 для извлечения URL-адреса Pdfs. Пожалуйста помоги.

как мне включить pdfcommand в веб-сбор, чтобы получить текст? Есть ли другой способ сделать это без запуска какого-либо командного файла?


person user3536614    schedule 15.04.2014    source источник


Ответы (1)


Думаю, сбора паутины для этого недостаточно. Вы должны использовать WGET и pdfbox, чтобы получить результат. Сначала загрузите все PDF-файлы через ваш URL-адрес в папку с помощью WGET или самого веб-ресурса. Затем запустите команду pdfbox, чтобы получить текст из PDF-файлов. Вы можете получить некоторые сведения о pdfbox по URL-адресу http://pdfbox.apache.org/commandline/. Вы также можете создать пакетный файл для запуска этих вещей по порядку.

person Navin Rawat    schedule 16.04.2014