Я пытаюсь создать программу, которая будет определять, какая страница / предложение в книге читается в микрофон. У меня есть текст книги и ее аудиоконтент. Пользователь начнет читать со случайной страницы, и программа должна синхронизироваться с пользователем и показывать читаемый раздел книги. Программа может показаться бесполезной, но, пожалуйста, потерпите меня ..
Будет ли работать подход, подобный шазамоподобным программам? Я не уверен, насколько эффективны эти алгоритмы для речи. Кроме того, говорящий будет другим, у него может быть акцент и разная скорость чтения.
Другой подход - преобразование речи в текст и поиск текста в книге. Проблема в том, что язык книги - это редкий язык, для которого нет языковой модели. Вдобавок в скрипте не используются латинские символы, что затрудняет программирование (по крайней мере, для меня).
Есть ли какие-то решения, которые можно порекомендовать? Будет ли работать извлечение функций из аудиофайла и сравнение с извлеченными функциями «в реальном времени» (с микрофона)? Какие особенности?
Любая реализация / код, с которого я могу начать? Можно любой язык, но предпочитаю C.