При попытке реализовать систему распознавания речи для одного конкретного говорящего со смешением русской и арабской речи я столкнулся с некоторыми проблемами. При адаптации акустической модели с 15-минутной речью диктора слишком высок процент ошибок (распознает правильно 1 из 6-10 слов). Что я сделал: 1. Я перевел арабские слова на русский язык и поместил их в словарь. 2. Пробовал старую модель msu_ru_zero.cd_cont_2000 от проекта ru4sphinx и новую от cmusphinx-ru-5.2 (последняя акустическая модель для русского языка на данный момент). 3. Я использовал словарь и языковую модель, составленную мной из текстов по моей специальности. Там почти 200мб текста в utf-8 на русском языке. Но в этом словаре была лишь небольшая часть арабских терминов.
Лишь несколько (4 из 40) аудиодорожек для адаптации не удалось с "выровнять аудио по расшифровке", остальные проходят без ошибок. Также в отчете после использования команды bw есть 220 сенонов, которых нет в аудиодорожках адаптации.
Как я могу уменьшить количество ошибок для этого языка микширования? Или мне нужно создать акустическую модель для этого 1 динамика с нуля? Мне вообще не нужно транскрибировать арабский язык, только русский, если арабский язык по умолчанию будет использовать какой-то общий термин (например, -unk-), это тоже будет хорошо.