Автономное распознавание речи в браузере

Я работаю над продуктом, который должен получать информацию от пользователя и выполнять определенные действия на его основе. Мы реализовали его с помощью окна чата с помощью набора текста, и он служит нашей цели. В будущих выпусках мы хотим добавить распознавание голоса в окно чата. Мы думали об использовании

window.speechRecognition () || window.webkitSpeechRecognition ()

но мы узнали, что функционально доступные в браузерах функции используют Google Cloud Speech API. Поскольку мы имеем дело с очень конфиденциальной информацией пользователей, это будет проблемой для безопасности. Есть ли другие альтернативы реализации распознавания речи, которые работают в любых браузерах.


person Pawan Kumar    schedule 25.03.2018    source источник


Ответы (4)


Судя по всему, PocketSphinx.js - единственный доступный путь на данный момент. Это движок преобразования речи в текст с открытым исходным кодом, который поддерживает английский, но не многие другие языки.

Github:

Однако, если вы хотите запустить свой код на одном экземпляре устройства Android (например, на устройстве, отображаемом где-то в общедоступном месте), вы можете использовать «Загрузить автономный язык распознавания голоса» в настройках мобильного Chrome. Для настольного браузера такой возможности нет.

person Community    schedule 18.01.2019
comment
Можно ли его перепроектировать? Знаете ли вы, как вызывается функция и можно ли к ней получить доступ в исходном коде Android? - person bluejayke; 07.10.2020

Ты можешь попробовать:

  • Snowboy, на сервере не хранятся wav-файлы. Они тренируют NN для вас, и вы можете скачать веса модели.
  • Tensorflow: Это действительно здорово, но с вашей стороны нужно немного поработать. Успешными проектами для TTS являются DeepSpeech и связанные с ними.
person gdm    schedule 30.08.2018
comment
Snowboy с Kitt.ai, кажется, всего лишь модель для определения слова для пробуждения, а не для распознавания речи? - person ; 18.01.2019
comment
Да, ты прав. Он очень ограничен, но пока бесплатный. Это зависит от того, что вы пытаетесь сделать. - person gdm; 19.01.2019

используйте модель tensorflowjs "tfjs" наиболее разумное решение, которое работает в браузере

Распознаватель речевых команд Распознаватель речевых команд - это модуль JavaScript, который позволяет распознавать речевые команды, состоящие из простых изолированных английских слов из небольшого словаря.

person john swana    schedule 02.08.2019

Вы можете попробовать службу преобразования речи в текст IBM Watson. Его можно использовать из любого браузера, и вы можете отказаться, чтобы данные пользователя не регистрировались на стороне сервера: https://console.bluemix.net/docs/services/watson/getting-started-logging

Демонстрация службы находится здесь: https://speech-to-text-demo.ng.bluemix.net/

Он работает как минимум в Firefox и Chrome, он основан на следующем SDK с открытым исходным кодом: https://github.com/watson-developer-cloud/speech-javascript-sdk

пс. В общем случае, когда данные пользователя не являются конфиденциальными, лучше не отказываться, чтобы Watson мог использовать данные для улучшения качества обслуживания.

person Daniel Bolanos    schedule 26.03.2018