Искать в книге с речью

Я пытаюсь создать программу, которая будет определять, какая страница / предложение в книге читается в микрофон. У меня есть текст книги и ее аудиоконтент. Пользователь начнет читать со случайной страницы, и программа должна синхронизироваться с пользователем и показывать читаемый раздел книги. Программа может показаться бесполезной, но, пожалуйста, потерпите меня ..

Будет ли работать подход, подобный шазамоподобным программам? Я не уверен, насколько эффективны эти алгоритмы для речи. Кроме того, говорящий будет другим, у него может быть акцент и разная скорость чтения.

Другой подход - преобразование речи в текст и поиск текста в книге. Проблема в том, что язык книги - это редкий язык, для которого нет языковой модели. Вдобавок в скрипте не используются латинские символы, что затрудняет программирование (по крайней мере, для меня).

Есть ли какие-то решения, которые можно порекомендовать? Будет ли работать извлечение функций из аудиофайла и сравнение с извлеченными функциями «в реальном времени» (с микрофона)? Какие особенности?

Любая реализация / код, с которого я могу начать? Можно любой язык, но предпочитаю C.


person Mikrasya    schedule 04.09.2013    source источник
comment
По сути, это область исследований на уровне доктора философии. Мне не известно о каких-либо заявлениях «под ключ» здесь.   -  person Eric Brown    schedule 05.09.2013


Ответы (1)


Вам нужно использовать распознаватель речи.

  1. Создайте языковую модель прямо из текста книги. Это сделает распознавание чтения книги очень точным, как при первоначальном чтении, так и при чтении пользователем.

  2. Используйте эту языковую модель для распознавания книги и назначения временных меток для слов или используйте более продвинутый алгоритм для выполнения выравнивания текста и звука.

  3. Распознавайте речь пользователя с помощью языковой модели для конкретной книги и используйте распознанный текст для отображения позиции в книге.

Вы можете использовать CMUSphinx для упомянутых задач.

person Nikolay Shmyrev    schedule 04.09.2013
comment
Спасибо, Николай. Это то, что я имел в виду (преобразование речи в текст). Проблема в том, что скрипт не является латинским / английским. Еще раз спасибо. - person Mikrasya; 05.09.2013