Примечание. Код, который вы запускаете, принадлежит ветке Github, которая не является главной, поэтому он может не обновляться.
Существует три основных метода преобразования речи в текст для распознавания речи. :
Синхронное распознавание: отправляет аудиоданные в API преобразования речи в текст, выполняет распознавание этих данных и возвращает результаты после обработки всего звука. Запросы ограничены аудиоданными продолжительностью 1 минуту или менее.
Асинхронное распознавание: отправляет аудиоданные в API преобразования речи в текст и инициирует длительную операцию. Используйте асинхронные запросы для аудиоданных любой продолжительности до 180 минут.
Распознавание потоковой передачи: выполняет распознавание аудиоданных, предоставленных в двунаправленном потоке gRPC. Запросы потоковой передачи предназначены для распознавания в реальном времени, например для записи звука в реальном времени с микрофона. Распознавание потоковой передачи обеспечивает промежуточные результаты во время записи звука, что позволяет отображать результат, например, пока пользователь все еще говорит.
Если вы пытаетесь распознавать речь в реальном времени, лучшим вариантом является потоковое распознавание. Вот демонстрационный файл ты можешь попробовать.
Если вы хотите протестировать два других метода, есть другие демки в репозитории для них.
Относительно аудио файлов продолжительностью более 1 минуты. Синхронное распознавание может обрабатывать только аудиофайлы короче одной минуты. Асинхронное распознавание может обрабатывать аудиофайлы продолжительностью до 180 минут, но вам нужно будет предоставить их из GCS. Для потокового распознавания, если вы хотите обрабатывать аудиофайлы продолжительностью более одной минуты, вам нужно делать это партиями.
Google предоставляет несколько образцов аудио для тестирования, они хранятся в корзине cloud-samples-test. Вы можете отобразить их список с помощью следующей команды:
gsutil ls gs://cloud-samples-tests/speech
person
llompalles
schedule
18.12.2018