Автономное распознавание речи в браузере

Я работаю над продуктом, который должен получать информацию от пользователя и выполнять определенные действия на его основе. Мы реализовали его с помощью окна чата с помощью набора текста, и он служит нашей цели. В будущих выпусках мы хотим добавить распознавание голоса в окно чата. Мы думали об использовании

window.speechRecognition () || window.webkitSpeechRecognition ()

но мы узнали, что функционально доступные в браузерах функции используют Google Cloud Speech API. Поскольку мы имеем дело с очень конфиденциальной информацией пользователей, это будет проблемой для безопасности. Есть ли другие альтернативы реализации распознавания речи, которые работают в любых браузерах.

Pawan Kumar 25.03.2018 источник

Ответы (4)

arrow_upward
1
arrow_downward

Судя по всему, PocketSphinx.js - единственный доступный путь на данный момент. Это движок преобразования речи в текст с открытым исходным кодом, который поддерживает английский, но не многие другие языки.

Github:

Однако, если вы хотите запустить свой код на одном экземпляре устройства Android (например, на устройстве, отображаемом где-то в общедоступном месте), вы можете использовать «Загрузить автономный язык распознавания голоса» в настройках мобильного Chrome. Для настольного браузера такой возможности нет.

Community 18.01.2019

comment

Можно ли его перепроектировать? Знаете ли вы, как вызывается функция и можно ли к ней получить доступ в исходном коде Android? - bluejayke; 07.10.2020

arrow_upward
3
arrow_downward

Ты можешь попробовать:

Snowboy, на сервере не хранятся wav-файлы. Они тренируют NN для вас, и вы можете скачать веса модели.
Tensorflow: Это действительно здорово, но с вашей стороны нужно немного поработать. Успешными проектами для TTS являются DeepSpeech и связанные с ними.

gdm 30.08.2018

comment

Snowboy с Kitt.ai, кажется, всего лишь модель для определения слова для пробуждения, а не для распознавания речи? - ; 18.01.2019

comment

Да, ты прав. Он очень ограничен, но пока бесплатный. Это зависит от того, что вы пытаетесь сделать. - gdm; 19.01.2019

arrow_upward
2
arrow_downward

используйте модель tensorflowjs "tfjs" наиболее разумное решение, которое работает в браузере

Распознаватель речевых команд Распознаватель речевых команд - это модуль JavaScript, который позволяет распознавать речевые команды, состоящие из простых изолированных английских слов из небольшого словаря.

john swana 02.08.2019

arrow_upward
0
arrow_downward

Вы можете попробовать службу преобразования речи в текст IBM Watson. Его можно использовать из любого браузера, и вы можете отказаться, чтобы данные пользователя не регистрировались на стороне сервера: https://console.bluemix.net/docs/services/watson/getting-started-logging

Демонстрация службы находится здесь: https://speech-to-text-demo.ng.bluemix.net/

Он работает как минимум в Firefox и Chrome, он основан на следующем SDK с открытым исходным кодом: https://github.com/watson-developer-cloud/speech-javascript-sdk

пс. В общем случае, когда данные пользователя не являются конфиденциальными, лучше не отказываться, чтобы Watson мог использовать данные для улучшения качества обслуживания.

Daniel Bolanos 26.03.2018

Автономное распознавание речи в браузере

Ответы (4)

Похожие вопросы