Создать акустическую модель с нуля или адаптировать существующую акустическую модель

При попытке реализовать систему распознавания речи для одного конкретного говорящего со смешением русской и арабской речи я столкнулся с некоторыми проблемами. При адаптации акустической модели с 15-минутной речью диктора слишком высок процент ошибок (распознает правильно 1 из 6-10 слов). Что я сделал: 1. Я перевел арабские слова на русский язык и поместил их в словарь. 2. Пробовал старую модель msu_ru_zero.cd_cont_2000 от проекта ru4sphinx и новую от cmusphinx-ru-5.2 (последняя акустическая модель для русского языка на данный момент). 3. Я использовал словарь и языковую модель, составленную мной из текстов по моей специальности. Там почти 200мб текста в utf-8 на русском языке. Но в этом словаре была лишь небольшая часть арабских терминов.

Лишь несколько (4 из 40) аудиодорожек для адаптации не удалось с "выровнять аудио по расшифровке", остальные проходят без ошибок. Также в отчете после использования команды bw есть 220 сенонов, которых нет в аудиодорожках адаптации.

Как я могу уменьшить количество ошибок для этого языка микширования? Или мне нужно создать акустическую модель для этого 1 динамика с нуля? Мне вообще не нужно транскрибировать арабский язык, только русский, если арабский язык по умолчанию будет использовать какой-то общий термин (например, -unk-), это тоже будет хорошо.

speech-recognition cmusphinx pocketsphinx

beatt 10.01.2017 источник

Ответы (1)

arrow_upward
0
arrow_downward

Я нашел проблему со своим словарем. это было из-за команды text2wfreq <lmbase.txt | wfreq2vocab. раньше я использовал wfreq2vocab с параметрами по умолчанию, поэтому мой словарь был урезан до наиболее часто встречающихся 20 000 слов. В моем стартовом словарном запасе более 200 тысяч слов. wfreq2vocab имеет -top аргумент, поэтому -top 400000 работает для меня (он не фильтрует слова, теперь он просто создает словарь)

И второе - теперь я использую MAP-адаптацию вместо mllr.

с 30-минутным аудио адаптации он показывает мне 50-75 процентов правильных слов.

beatt 13.01.2017

Создать акустическую модель с нуля или адаптировать существующую акустическую модель

Ответы (1)

Похожие вопросы