Нужен совет по отображению (и/или преобразованию) pdf-файлов в Интернете.

Сначала немного предыстории: на моем сайте есть два основных типа пользователей. Пользователи с бесплатными учетными записями могут загружать документы, а платные клиенты могут затем искать, просматривать или загружать эти документы. Загрузчики могут просматривать только те документы, которыми они владеют, в то время как платные пользователи могут просматривать все что угодно. В настоящее время мы поддерживаем только документы Word (.doc или .docx) и обычный текст. Мы используем библиотеку JODConverter для преобразования между Word и html; html — это то, что хранится в базе данных и отображается для пользователей.
Мы также хотим перейти к приему PDF-файлов, но я не уверен, что лучше сделать: отображать PDF-файлы или преобразовывать их в html. Я видел предложения использовать документы Google для преобразования на лету, но не представляется возможным должным образом ограничить доступ, учитывая, что документ должен быть общедоступным для Google - пожалуйста, поправьте меня, если я ошибаюсь. Кажется, что простое использование тега в html (или что-то вроде PDFBox) приведет к той же проблеме.
В качестве альтернативы мы можем забыть отображать файлы PDF напрямую и преобразовать их в html, как мы делаем с документами Word, но я еще не наткнулся на прилично выглядящую библиотеку для этого. Все, на что я смотрел до сих пор, кажется, говорит, что это не так уж хорошо конвертирует работу, предназначено только для Window и / или имеет изрядную плату за лицензию. (Лицензионный сбор не обязательно является препятствием для сделки, если он не превышает 100 долларов в год или около того.) Кто-нибудь знает хорошую библиотеку преобразования Java? (Что-то, что запускается через командную строку, было бы приемлемо, если бы оно действительно хорошо работало.)
И последнее: мы планируем предложить платным клиентам возможность загружать исходные файлы PDF. Наверное, это сложно? Есть ли что-то, что я должен иметь в виду при построении остальной части процесса?


person joshg    schedule 23.03.2012    source источник


Ответы (1)


Вместо преобразования PDF в HTML, что подразумевает своего рода OCR (распознавание текста), вы можете преобразовать PDF в изображения с помощью таких инструментов, как JPedal и создайте HTML-страницу со ссылками на эти изображения в последовательном порядке. Поскольку это библиотека Java, это не только окна.

Загрузка исходных PDF-файлов не должна быть проблемой. Вам нужно просто установить тип mimetype на стандартное расширение PDF: application/pdf в заголовке.

person bschandramohan    schedule 23.03.2012
comment
Я полагаю, что-то подобное может сработать; однако наши клиенты привыкли к тому, что их условия поиска выделяются при просмотре документов. Плюс лишит возможности копировать+вставлять из документов. Конечно, это, вероятно, будет проблемой, независимо от того, какое решение я в конечном итоге выберу. - person joshg; 23.03.2012
comment
Существует также коммерческий конвертер PDF в HTML5 на основе JPedal по адресу jpedal.org/html_index.php. - person mark stephens; 24.03.2012
comment
@mark - Вы знаете кого-нибудь, кто действительно использовал его? Эта цена довольно высока, но если она действительно работает хорошо, мой босс может пойти на это. - person joshg; 28.03.2012