Мы пытаемся заставить CMU Sphinx4 распознавать только слова yes и no на испанском языке (si и no). Мы внедрили Sphinx4 с испанской моделью es_cont_2000 от voxforge. Мы создали языковую модель (прикреплена ниже), и при распознавании слова «Нет» имеем почти 100% точность. Однако при распознавании «Si» (Да) это всего около 50%.
Есть ли у кого-нибудь предложения о том, как повысить точность для такого сокращенного набора слов, помимо адаптации языковой модели (http://cmusphinx.sourceforge.net/wiki/tutorialadapt)?
Есть ли лучшие языковые модели для латиноамериканского испанского или других способов?
This is an ARPA-format language model file, generated by CMU Sphinx
\data\
ngram 1=4
ngram 2=4
ngram 3=4
\1-grams:
-0.7782 </s> -0.1761
-0.3010 <s> -0.5228
-0.7782 no -0.3978
-0.7782 si 0.0000
\2-grams:
-0.1761 </s> <s> -0.0791
-0.3978 <s> no 0.1761
-0.3978 <s> si -0.2217
-0.1761 no </s> 0.1761
\3-grams:
-0.3010 </s> <s> si
-0.3010 <s> no </s>
-0.3010 <s> si </s>
-0.3010 no </s> <s>
\end\