Преобразование файла PDF в один файл HTML

Я пытаюсь преобразовать документ PDF в один файл HTML в java. Большинство онлайн-конвертеров преобразуют один файл PDF в несколько файлов HTML. Я хочу преобразовать весь PDF в один файл HTML.

Какие-либо предложения?


person Ahsan Abid    schedule 30.01.2012    source источник
comment
Вы пытаетесь извлечь только текст или еще и форматирование?   -  person Richard Ev    schedule 30.01.2012


Ответы (3)


Какие-либо предложения?

Вы всегда можете написать некоторый код, используя API JSoup, чтобы написать один документ, который включает body каждого из нескольких HTML-файлов. . Комбинирование стилей и таблиц стилей (CSS) может быть немного сложнее (особенно если исходный HTML использует элементы id).


Хотя мне трудно поверить, что нет конвертера, в котором есть опция "один документ". Рекомендую искать дальше.

person Andrew Thompson    schedule 30.01.2012

Я думаю, что должна быть возможность проанализировать ваш PDF-документ с помощью itext, а затем сгенерировать ваш html-файл. Должен признаться, я не проверял, выполнимо ли это.

person C.Champagne    schedule 30.01.2012

Вы смотрели на http://www.jpedal.org/html_index.php, где есть опция для записи в один файл.

person mark stephens    schedule 30.01.2012