Распознавание файла без грамматических ограничений

Поскольку файл gram используется для преобразования аудио в текст, у нас есть только ограниченное количество слов, которые можно распознать. есть ли способ транскрибировать любой звук в текст. Можем ли мы улучшить файл gram, чтобы он содержал все английские слова, чтобы любое из английских слов можно было распознать? Или мы можем сделать что-то еще, чтобы моя цель преобразовать любой аудиофайл в текст могла быть реализована? Я потерял много времени. Любая идея будет оценена. Заранее спасибо.


person Vishwanath    schedule 16.02.2014    source источник


Ответы (1)


Чтобы ознакомиться с концепциями распознавания речи, сначала прочитайте учебник.

http://cmusphinx.sourceforge.net/wiki/tutorial

Грамматика, содержащая все слова, называется языковой моделью. Языковую модель для английского языка США можно скачать здесь:

https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20Generic%20Language%20Model/

Чтобы создать языковые модели для других языков, вы можете проверить учебник

http://cmusphinx.sourceforge.net/wiki/tutoriallm

Для декодирования с помощью языковой модели вы можете использовать демо-версию Transcriber в sphinx4 или двоичном файле pocketsphinx_continuous с параметром -lm. Так:

 pocketsphinx_continuous -infile file.wav -lm en_us.lm.dmp
person Nikolay Shmyrev    schedule 16.02.2014
comment
Спасибо, Николай..... не могли бы вы подсказать мне, как можно отредактировать sphinx4.jar, чтобы он мог использовать вышеуказанную модель и брать аудиофайл в качестве входных данных. - person Vishwanath; 16.02.2014
comment
В sphinx4 эта модель уже используется по умолчанию в демонстрации Transcriber. Подробнее см. cmusphinx.sourceforge.net/wiki/tutorialsphinx4. - person Nikolay Shmyrev; 16.02.2014
comment
но программа hello world, включенная в sphinx4, использует очень короткий файл gram. если он использует языковую модель, то какой смысл в файле gram. и если это необходимо, то как мы можем увеличить количество слов в файле gram, чтобы обнаружить любое слово, произнесенное в аудиофайле. пожалуйста помоги - person Vishwanath; 16.02.2014
comment
Пожалуйста, перейдите по ссылке и внимательно прочитайте ее. Не похоже, чтобы вы это читали. - person Nikolay Shmyrev; 16.02.2014
comment
Я все прочитал... не могли бы вы помочь мне, как использовать языковую модель, которую вы предоставили в sphinx4. учебник немного сбивает с толку, чтобы следить за созданием кода, который может конвертировать аудио в текст .. пожалуйста - person Vishwanath; 16.02.2014
comment
Вам нужно проверить последние исходники с помощью subversion и проверить демо-версию Transcriber. - person Nikolay Shmyrev; 16.02.2014
comment
hii Николай... как вы сказали, я все проверил... не могли бы вы сказать мне, как я могу извлечь языковую модель (.lm), чтобы заменить существующий файл .trigram.lm новым. - person Vishwanath; 17.02.2014
comment
Скажите hoe, чтобы он использовал файл en_us.lm.dmp, который вы предоставили в демоверсии транскрибатора. - person Vishwanath; 17.02.2014
comment
Привет, Николай.... расскажите, пожалуйста, как использовать файл en_us.lm.dmp, который вы предоставили в демоверсии транскрибатора. Огромное спасибо заранее. - person Vishwanath; 18.02.2014