Почему Google PDF DOCUMENT_TEXT_DETECTION API намного медленнее, чем Google JPG DOCUMENT_TEXT_DETECTION API

Я заметил, что Google Vision PDF OCR DOCUMENT_TEXT_DETECTION занимает около 15 секунд, чтобы обнаружить одну страницу PDF https://cloud.google.com/vision/docs/pdf.
Но если я отправлю ту же страницу PDF, что и JPG, для обнаружения текстов потребуется менее 3 секунд https://cloud.google.com/vision/docs/detecting-fulltext

Я использовал приведенный здесь код (C#)https://cloud.google.com/vision/docs/pdf#vision-pdf-detection-gcs-csharp

Я заметил, что следующей строке кода требуется около 15 секунд, чтобы сказать, что весь текст в PDF обнаружен и сохранен в gsBucket operation.PollUntilCompleted();

  • Мой GsBucket — это «мультирегиональное хранилище» в США.
  • Я также загружаю из США

Мне было интересно, что еще я могу сделать, чтобы ускорить процесс или это ожидается?


person TwiceMe    schedule 20.05.2019    source источник
comment
Сколько времени нужно, чтобы преобразовать PDF в JPEG? Это может быть то, что он делает в фоновом режиме.   -  person Roger Willcocks    schedule 20.05.2019
comment
Возможно, у меня просто конвертация PDF в JPEG занимает около 1-2 секунд.   -  person TwiceMe    schedule 20.05.2019
comment
Возможно, он завершается быстрее — в конце концов, PollUntilCompleted выполняет опрос. Вы можете указать более частое PollSettings просто для проверки.   -  person Jon Skeet    schedule 21.05.2019
comment
Я изменил интервал на 1 секунду, но разницы все равно нет, это хорошо. Я загружаю PDF-файл, а затем жду, пока результат обнаружения текста будет сохранен обратно в мое ведро. Разница между отметкой времени последнего изменения файла, который я загрузил, и файлом, сохраненным Google, также показывает разницу в ~ 15 секунд.   -  person TwiceMe    schedule 22.05.2019
comment
Возможно, здесь задействовано какое-то внутреннее расписание. Я на 99% уверен, что вы получите тот же результат с другими клиентскими библиотеками — здесь мы мало что делаем, кроме опроса. Вы можете задать вопрос на groups.google.com/forum/#! форум/cloud-vision-обсудить...   -  person Jon Skeet    schedule 24.05.2019
comment
Раньше они предлагали только автономную обработку PDF-файлов. Недавно они выпустили онлайн-обработку небольших пакетов для PDF-файлов, что сократило мою задержку с ~ 20 секунд до ~ 3 секунд. Однако я не вижу примера кода для C#.   -  person Melissa Guo    schedule 15.07.2019


Ответы (1)


Вы можете найти ответ на свой вопрос в этой теме групп Google< /а>. В качестве резюме:

Автономный пакетный API не рассчитан на то, чтобы в первую очередь использовать короткое время выполнения. Вместо этого он направлен на обеспечение планирования для большого количества многостраничных файлов PDF/TIFF в соответствии с ограничениями квоты. Таким образом, вместо того, чтобы отправлять файлы PDF/TIFF один за другим и ждать, пока каждый из них завершится успешно, типичный способ его использования — отправить как можно больше файлов PDF/TIFF одновременно или непрерывно, отслеживая идентификатор каждой операции, чтобы получить окончательный результат. результат каждой обработки PDF/TIFF.

функция онлайн-обработки небольших пакетов, упомянутая в комментариях пока не доступен в клиентской библиотеке C#. Обходными путями может быть прямой вызов REST API или использование клиентской библиотеки для другого языка.

person ch_mike    schedule 26.08.2019