Почему Google PDF DOCUMENT_TEXT_DETECTION API намного медленнее, чем Google JPG DOCUMENT_TEXT_DETECTION API

Я заметил, что Google Vision PDF OCR DOCUMENT_TEXT_DETECTION занимает около 15 секунд, чтобы обнаружить одну страницу PDF https://cloud.google.com/vision/docs/pdf.
Но если я отправлю ту же страницу PDF, что и JPG, для обнаружения текстов потребуется менее 3 секунд https://cloud.google.com/vision/docs/detecting-fulltext

Я использовал приведенный здесь код (C#)https://cloud.google.com/vision/docs/pdf#vision-pdf-detection-gcs-csharp

Я заметил, что следующей строке кода требуется около 15 секунд, чтобы сказать, что весь текст в PDF обнаружен и сохранен в gsBucket operation.PollUntilCompleted();

Мой GsBucket — это «мультирегиональное хранилище» в США.
Я также загружаю из США

Мне было интересно, что еще я могу сделать, чтобы ускорить процесс или это ожидается?

TwiceMe 20.05.2019 источник

comment

Сколько времени нужно, чтобы преобразовать PDF в JPEG? Это может быть то, что он делает в фоновом режиме. - Roger Willcocks 20.05.2019

comment

Возможно, у меня просто конвертация PDF в JPEG занимает около 1-2 секунд. - TwiceMe 20.05.2019

comment

Возможно, он завершается быстрее — в конце концов, PollUntilCompleted выполняет опрос. Вы можете указать более частое PollSettings просто для проверки. - Jon Skeet 21.05.2019

comment

Я изменил интервал на 1 секунду, но разницы все равно нет, это хорошо. Я загружаю PDF-файл, а затем жду, пока результат обнаружения текста будет сохранен обратно в мое ведро. Разница между отметкой времени последнего изменения файла, который я загрузил, и файлом, сохраненным Google, также показывает разницу в ~ 15 секунд. - TwiceMe 22.05.2019

comment

Возможно, здесь задействовано какое-то внутреннее расписание. Я на 99% уверен, что вы получите тот же результат с другими клиентскими библиотеками — здесь мы мало что делаем, кроме опроса. Вы можете задать вопрос на groups.google.com/forum/#! форум/cloud-vision-обсудить... - Jon Skeet 24.05.2019

comment

Раньше они предлагали только автономную обработку PDF-файлов. Недавно они выпустили онлайн-обработку небольших пакетов для PDF-файлов, что сократило мою задержку с ~ 20 секунд до ~ 3 секунд. Однако я не вижу примера кода для C#. - Melissa Guo 15.07.2019

Ответы (1)

arrow_upward
0
arrow_downward

Вы можете найти ответ на свой вопрос в этой теме групп Google< /а>. В качестве резюме:

Автономный пакетный API не рассчитан на то, чтобы в первую очередь использовать короткое время выполнения. Вместо этого он направлен на обеспечение планирования для большого количества многостраничных файлов PDF/TIFF в соответствии с ограничениями квоты. Таким образом, вместо того, чтобы отправлять файлы PDF/TIFF один за другим и ждать, пока каждый из них завершится успешно, типичный способ его использования — отправить как можно больше файлов PDF/TIFF одновременно или непрерывно, отслеживая идентификатор каждой операции, чтобы получить окончательный результат. результат каждой обработки PDF/TIFF.

функция онлайн-обработки небольших пакетов, упомянутая в комментариях пока не доступен в клиентской библиотеке C#. Обходными путями может быть прямой вызов REST API или использование клиентской библиотеки для другого языка.

ch_mike 26.08.2019

Почему Google PDF DOCUMENT_TEXT_DETECTION API намного медленнее, чем Google JPG DOCUMENT_TEXT_DETECTION API

Ответы (1)

Похожие вопросы