Возврат форматированного текста из результатов GCP Vision PDF

Наконец-то я получил свой скрипт для отправки PDF-документа в хранилище Google, а затем извлечения текста с помощью Google Vision для PDF, как описано в документация.

Данные возвращаются в огромном файле JSON. Есть один узел, содержащий test, но он больше не отформатирован. Только разрывы строк обозначаются \n. Меня не так волнуют разрывы строк, как абзацы.

Как я могу вернуть его отформатированным? Существуют ли какие-либо библиотеки, которые будут работать с GCP для улучшения вывода JSON?


person santa    schedule 23.05.2019    source источник
comment
Возможна ли подача результата через jq? См. stedolan.github.io/jq . Также см. это: stackoverflow.com/questions/36728347/cloud -vision-api-pdf-ocr .   -  person Roadowl    schedule 27.05.2019
comment
Выглядит интересно. Но файл JSON, который я получаю от GCP, ужасен, я даже не могу попробовать его в /jq play online...   -  person santa    schedule 27.05.2019
comment
Я бы, если возможно, пропустил бы его через jq локально. Таким образом, размер файла не играет большой роли. Пример в почти самой простой форме: cat foo.json | jq . (обратите внимание на точку).   -  person Roadowl    schedule 27.05.2019
comment
Что вы имеете в виду под словом "отформатировано"? Каково ваше текущее наблюдение и как бы вы хотели, чтобы результат был. Пожалуйста, дополните.   -  person Tom    schedule 28.05.2019
comment
Меня не очень волнуют разрывы строк, но я хотел бы сохранить новые строки и абзацы. Определенно нужен весь документ в одном выводе, а не отдельные файлы и удаление верхних и нижних колонтитулов. Вот ссылка на тестовый файл, с которым я работал: docdro.id/NyFyxJq   -  person santa    schedule 28.05.2019
comment
Вы пробовали вместо этого использовать MS Word? Вы открываете PDF в Word, сохраняете в xml и извлекаете данные из xml-файла.   -  person RobertBaron    schedule 02.06.2019
comment
@RobertBaron Я пытаюсь написать сценарий для этой работы.   -  person santa    schedule 03.06.2019
comment
Я не знаком с php, но Word можно автоматизировать из кода на нескольких языках. Ваш код запускается веб-сервером или каким-то интерактивным приложением? Я спрашиваю, потому что попытка запустить Word на сервере без рабочего стола не сработает. Итак, если в вашем случае возможна автоматизация Word, то я предлагаю вам провести ручной тест. Откройте pdf в Word и сохраните его в xml. Не все PDF-файлы легко извлекают данные таблицы xml.   -  person RobertBaron    schedule 03.06.2019
comment
Сколько выходных файлов есть для вашего 4-страничного PDF?   -  person Brendan    schedule 06.06.2019