В моей системе, используя мой USB-микрофон, я обнаружил, что уровень звука, который лучше всего работает с CMU Sphinx, составляет около 20% от максимального. Это дает мне 75% точность распознавания голоса. Если я усугублю это в цифровом виде, точность распознавания будет намного хуже (25%). Почему это? Какой рекомендуемый уровень звука для Sphinx? [Также я использую 16 000 выборок в секунду, 16 бит.]
Каков идеальный уровень звука для Sphinx?
Ответы (1)
Декодер pocketsphinx использует нормализацию амплитуды канала. Начальное значение нормализации настроено на 20% уровня звука внутри модели (параметр -cmninit в feat.params). Однако уровень обновляется по мере декодирования, поэтому он влияет только на первое произнесение. Если вы правильно декодируете в непрерывном режиме, уровень не должен иметь значения. Не перезапускайте распознаватель для каждого высказывания, пусть он адаптируется к шуму и уровню звука.
person
Nikolay Shmyrev
schedule
09.11.2015