Каков идеальный уровень звука для Sphinx?

В моей системе, используя мой USB-микрофон, я обнаружил, что уровень звука, который лучше всего работает с CMU Sphinx, составляет около 20% от максимального. Это дает мне 75% точность распознавания голоса. Если я усугублю это в цифровом виде, точность распознавания будет намного хуже (25%). Почему это? Какой рекомендуемый уровень звука для Sphinx? [Также я использую 16 000 выборок в секунду, 16 бит.]


person dingo    schedule 08.11.2015    source источник


Ответы (1)


Декодер pocketsphinx использует нормализацию амплитуды канала. Начальное значение нормализации настроено на 20% уровня звука внутри модели (параметр -cmninit в feat.params). Однако уровень обновляется по мере декодирования, поэтому он влияет только на первое произнесение. Если вы правильно декодируете в непрерывном режиме, уровень не должен иметь значения. Не перезапускайте распознаватель для каждого высказывания, пусть он адаптируется к шуму и уровню звука.

person Nikolay Shmyrev    schedule 09.11.2015