Очень низкая точность при использовании открытых ушей для распознавания речи

Я использую открытые уши для распознавания речи в своем приложении. Главной проблемой является точность. В тихой обстановке точность составляет около 50%, но в шумной обстановке все становится хуже. Почти ничего не распознается правильно. Я использую файл словаря около 300 слов в настоящее время. Какие области я должен искать для повышения точности? До сих пор я не делал никаких настроек по этому поводу.


person humblePilgrim    schedule 15.09.2011    source источник


Ответы (1)


Разработка приложений для распознавания речи требует от вас понимания некоторых основных концепций распознавания речи, таких как акустическая модель, грамматика и фонетический словарь. Вы можете узнать больше из учебника CMUSphinx http://cmusphinx.sourceforge.net/wiki/tutorial

Плохая точность — это нормальное состояние разработки речевого приложения, есть процесс, который вы можете использовать, чтобы улучшить его и сделать приложение полезным. Процесс следующий:

  1. Соберите образцы речи, которые вы пытаетесь распознать, и создайте базу данных речи, чтобы измерить текущую точность и понять проблемы, стоящие за ней.

  2. Попробуйте поиграть с размером словарного запаса, чтобы улучшить разделение между различными голосовыми подсказками. Например, словарь из 10 команд намного легче распознать, чем словарь из 300 команд.

  3. Создайте свое приложение таким образом, чтобы количество распознаваемых вариантов было меньше, а ответы людей были простыми. Эта деятельность называется VUI (дизайн голосового пользовательского интерфейса), и это довольно большая область с множеством блестящих книг и статей в блогах. Вы можете найти некоторые подробности здесь: https://rads.stackoverflow.com/amzn/click/com/0321185765

  4. Попробуйте улучшить акустическую часть вашего приложения. Измените словарь, чтобы он соответствовал вашей речи. Адаптируйте акустическую модель, чтобы она соответствовала акустическим свойствам. См. описание акустического процесс адаптации модели.

person Nikolay Shmyrev    schedule 16.09.2011
comment
Спасибо за ответ. Я провел некоторое исследование по 4 пунктам, которые вы упомянули. Однако есть несколько вещей, по которым мне нужно прояснить ‹br›1. Игра с размером словарного запаса для меня не вариант, поскольку для понимания требуется приложение. большой редактируемый список слов. ‹br›2. Я признаю, что не проводил исследований по дизайну vui. Вопрос точности стал критическим. В этой ситуации вы бы посоветовали мне погрузиться в эту область? Сколько времени займет исследования по VUI быть? - person humblePilgrim; 16.09.2011
comment
Хорошо. Моя главная цель - распознавать слова, произнесенные пользователем в (шумной) среде классной комнаты. Пользователь может добавить в словарь больше слов по своему выбору. Теперь проблема только с точностью. Кроме того, поскольку я и пользователи находятся в разных регионах мира, проблема акцента является серьезной. Я также сомневаюсь, что смогу получить образцы аудио от реальных пользователей. - person humblePilgrim; 20.09.2011
comment
Ну, проблемы конечно есть, но они решаемы. Акцентная проблема решается адаптацией. Проблема реверберации в помещении решается надежными функциями. Шум обычно фильтруется шумоподавлением в акустическом интерфейсе. Если вы намеревались работать над этим, все это выполнимо. - person Nikolay Shmyrev; 20.09.2011
comment
Хм..... Хорошо, еще одна вещь, я просмотрел страницу CMU для адаптации акустической модели, но я обнаружил, что шаги отсутствуют, если необходимо распознавать голоса нескольких пользователей. - person humblePilgrim; 21.09.2011
comment
О, и это приложение для iPad, о котором мы говорим (если это имеет значение :)) - person humblePilgrim; 21.09.2011
comment
Извините, я не уверен, какие шаги вы пропустили, они все есть. - person Nikolay Shmyrev; 21.09.2011