Очень низкая точность при использовании открытых ушей для распознавания речи

Я использую открытые уши для распознавания речи в своем приложении. Главной проблемой является точность. В тихой обстановке точность составляет около 50%, но в шумной обстановке все становится хуже. Почти ничего не распознается правильно. Я использую файл словаря около 300 слов в настоящее время. Какие области я должен искать для повышения точности? До сих пор я не делал никаких настроек по этому поводу.

ios speech-recognition openears

humblePilgrim 15.09.2011 источник

Ответы (1)

arrow_upward
17
arrow_downward

Разработка приложений для распознавания речи требует от вас понимания некоторых основных концепций распознавания речи, таких как акустическая модель, грамматика и фонетический словарь. Вы можете узнать больше из учебника CMUSphinx http://cmusphinx.sourceforge.net/wiki/tutorial

Плохая точность — это нормальное состояние разработки речевого приложения, есть процесс, который вы можете использовать, чтобы улучшить его и сделать приложение полезным. Процесс следующий:

Соберите образцы речи, которые вы пытаетесь распознать, и создайте базу данных речи, чтобы измерить текущую точность и понять проблемы, стоящие за ней.
Попробуйте поиграть с размером словарного запаса, чтобы улучшить разделение между различными голосовыми подсказками. Например, словарь из 10 команд намного легче распознать, чем словарь из 300 команд.
Создайте свое приложение таким образом, чтобы количество распознаваемых вариантов было меньше, а ответы людей были простыми. Эта деятельность называется VUI (дизайн голосового пользовательского интерфейса), и это довольно большая область с множеством блестящих книг и статей в блогах. Вы можете найти некоторые подробности здесь: https://rads.stackoverflow.com/amzn/click/com/0321185765
Попробуйте улучшить акустическую часть вашего приложения. Измените словарь, чтобы он соответствовал вашей речи. Адаптируйте акустическую модель, чтобы она соответствовала акустическим свойствам. См. описание акустического процесс адаптации модели.

Nikolay Shmyrev 16.09.2011

comment

Спасибо за ответ. Я провел некоторое исследование по 4 пунктам, которые вы упомянули. Однако есть несколько вещей, по которым мне нужно прояснить ‹br›1. Игра с размером словарного запаса для меня не вариант, поскольку для понимания требуется приложение. большой редактируемый список слов. ‹br›2. Я признаю, что не проводил исследований по дизайну vui. Вопрос точности стал критическим. В этой ситуации вы бы посоветовали мне погрузиться в эту область? Сколько времени займет исследования по VUI быть? - humblePilgrim; 16.09.2011

comment

Хорошо. Моя главная цель - распознавать слова, произнесенные пользователем в (шумной) среде классной комнаты. Пользователь может добавить в словарь больше слов по своему выбору. Теперь проблема только с точностью. Кроме того, поскольку я и пользователи находятся в разных регионах мира, проблема акцента является серьезной. Я также сомневаюсь, что смогу получить образцы аудио от реальных пользователей. - humblePilgrim; 20.09.2011

comment

Ну, проблемы конечно есть, но они решаемы. Акцентная проблема решается адаптацией. Проблема реверберации в помещении решается надежными функциями. Шум обычно фильтруется шумоподавлением в акустическом интерфейсе. Если вы намеревались работать над этим, все это выполнимо. - Nikolay Shmyrev; 20.09.2011

comment

Хм..... Хорошо, еще одна вещь, я просмотрел страницу CMU для адаптации акустической модели, но я обнаружил, что шаги отсутствуют, если необходимо распознавать голоса нескольких пользователей. - humblePilgrim; 21.09.2011

comment

О, и это приложение для iPad, о котором мы говорим (если это имеет значение :)) - humblePilgrim; 21.09.2011

comment

Извините, я не уверен, какие шаги вы пропустили, они все есть. - Nikolay Shmyrev; 21.09.2011

Очень низкая точность при использовании открытых ушей для распознавания речи

Ответы (1)

Похожие вопросы