У меня есть несколько файлов в папке (sample.pdf, sample.html и т. д.), и я использую следующую команду Apache tika для извлечения метаданных.
java -jar tika-app.jar -m -j /sample/sample.pdf > test.txt
после выполнения этой команды я могу получить все теги метаданных для файла sample.pdf, но мое требование состоит в том, чтобы получить определенные теги, такие как автор, название и т. д. Пожалуйста, предложите мне, как использовать Apache tika для получения определенных тегов метаданных.
Спасибо
xpdf
предоставляет утилитуpdfinfo
, предоставляющую информацию о метаданных для PDF. - person devnull   schedule 24.06.2013