Распознавание файла без грамматических ограничений

Поскольку файл gram используется для преобразования аудио в текст, у нас есть только ограниченное количество слов, которые можно распознать. есть ли способ транскрибировать любой звук в текст. Можем ли мы улучшить файл gram, чтобы он содержал все английские слова, чтобы любое из английских слов можно было распознать? Или мы можем сделать что-то еще, чтобы моя цель преобразовать любой аудиофайл в текст могла быть реализована? Я потерял много времени. Любая идея будет оценена. Заранее спасибо.

speech-recognition cmusphinx

Vishwanath 16.02.2014 источник

Ответы (1)

arrow_upward
1
arrow_downward

Чтобы ознакомиться с концепциями распознавания речи, сначала прочитайте учебник.

http://cmusphinx.sourceforge.net/wiki/tutorial

Грамматика, содержащая все слова, называется языковой моделью. Языковую модель для английского языка США можно скачать здесь:

https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20Generic%20Language%20Model/

Чтобы создать языковые модели для других языков, вы можете проверить учебник

http://cmusphinx.sourceforge.net/wiki/tutoriallm

Для декодирования с помощью языковой модели вы можете использовать демо-версию Transcriber в sphinx4 или двоичном файле pocketsphinx_continuous с параметром -lm. Так:

 pocketsphinx_continuous -infile file.wav -lm en_us.lm.dmp

Nikolay Shmyrev 16.02.2014

comment

Спасибо, Николай..... не могли бы вы подсказать мне, как можно отредактировать sphinx4.jar, чтобы он мог использовать вышеуказанную модель и брать аудиофайл в качестве входных данных. - Vishwanath; 16.02.2014

comment

В sphinx4 эта модель уже используется по умолчанию в демонстрации Transcriber. Подробнее см. cmusphinx.sourceforge.net/wiki/tutorialsphinx4. - Nikolay Shmyrev; 16.02.2014

comment

но программа hello world, включенная в sphinx4, использует очень короткий файл gram. если он использует языковую модель, то какой смысл в файле gram. и если это необходимо, то как мы можем увеличить количество слов в файле gram, чтобы обнаружить любое слово, произнесенное в аудиофайле. пожалуйста помоги - Vishwanath; 16.02.2014

comment

Пожалуйста, перейдите по ссылке и внимательно прочитайте ее. Не похоже, чтобы вы это читали. - Nikolay Shmyrev; 16.02.2014

comment

Я все прочитал... не могли бы вы помочь мне, как использовать языковую модель, которую вы предоставили в sphinx4. учебник немного сбивает с толку, чтобы следить за созданием кода, который может конвертировать аудио в текст .. пожалуйста - Vishwanath; 16.02.2014

comment

Вам нужно проверить последние исходники с помощью subversion и проверить демо-версию Transcriber. - Nikolay Shmyrev; 16.02.2014

comment

hii Николай... как вы сказали, я все проверил... не могли бы вы сказать мне, как я могу извлечь языковую модель (.lm), чтобы заменить существующий файл .trigram.lm новым. - Vishwanath; 17.02.2014

comment

Скажите hoe, чтобы он использовал файл en_us.lm.dmp, который вы предоставили в демоверсии транскрибатора. - Vishwanath; 17.02.2014

comment

Привет, Николай.... расскажите, пожалуйста, как использовать файл en_us.lm.dmp, который вы предоставили в демоверсии транскрибатора. Огромное спасибо заранее. - Vishwanath; 18.02.2014

Распознавание файла без грамматических ограничений

Ответы (1)

Похожие вопросы