Я использую открытые уши для распознавания речи в своем приложении. Главной проблемой является точность. В тихой обстановке точность составляет около 50%, но в шумной обстановке все становится хуже. Почти ничего не распознается правильно. Я использую файл словаря около 300 слов в настоящее время. Какие области я должен искать для повышения точности? До сих пор я не делал никаких настроек по этому поводу.
Очень низкая точность при использовании открытых ушей для распознавания речи
Ответы (1)
Разработка приложений для распознавания речи требует от вас понимания некоторых основных концепций распознавания речи, таких как акустическая модель, грамматика и фонетический словарь. Вы можете узнать больше из учебника CMUSphinx http://cmusphinx.sourceforge.net/wiki/tutorial
Плохая точность — это нормальное состояние разработки речевого приложения, есть процесс, который вы можете использовать, чтобы улучшить его и сделать приложение полезным. Процесс следующий:
Соберите образцы речи, которые вы пытаетесь распознать, и создайте базу данных речи, чтобы измерить текущую точность и понять проблемы, стоящие за ней.
Попробуйте поиграть с размером словарного запаса, чтобы улучшить разделение между различными голосовыми подсказками. Например, словарь из 10 команд намного легче распознать, чем словарь из 300 команд.
Создайте свое приложение таким образом, чтобы количество распознаваемых вариантов было меньше, а ответы людей были простыми. Эта деятельность называется VUI (дизайн голосового пользовательского интерфейса), и это довольно большая область с множеством блестящих книг и статей в блогах. Вы можете найти некоторые подробности здесь: https://rads.stackoverflow.com/amzn/click/com/0321185765
Попробуйте улучшить акустическую часть вашего приложения. Измените словарь, чтобы он соответствовал вашей речи. Адаптируйте акустическую модель, чтобы она соответствовала акустическим свойствам. См. описание акустического процесс адаптации модели.