Скрытые марковские модели для распознавания фонем в непрерывной речи

Я знаю, как применить скрытую марковскую модель (HMM), когда у меня есть изолированная фонема. Мне просто нужно было бы создать несколько моделей HMM (по крайней мере, с 3 состояниями на модель), по одной для каждой фонемы, вычислить прямой алгоритм для всех из них и посмотреть, какое из них имеет наибольшую вероятность.

Но теперь у меня есть непрерывная база данных речи, фонемы помечены в каждом кадре (TIMIT). Как мне обучить HMM, чтобы он мог распознавать фонемы в непрерывной речи?

speech-to-text speech-recognition hidden-markov-models

Isaac 20.02.2019 источник

Ответы (1)

arrow_upward
1
arrow_downward

Вкратце: для непрерывного распознавания речи вы соединяете свои модели фонем в большой HMM, используя вспомогательные модели тишины.

Во-первых, вы можете обучать модели изолированным фонемам и применять их к непрерывной речи. Например, вы можете разделить тренировочное аудио на части в соответствии с существующими метками.

На этапе распознавания применение декодирования Витерби (наиболее вероятной последовательности скрытых состояний) к комбинированной модели эквивалентно распознаванию последовательности фонем. Для получения более подробной информации вы можете изучить соответствующую главу из книги HTK. .

Чтобы обучить HMM на непрерывных данных, вы также проделываете аналогичный трюк: объединяете отдельные модели фонем в большую модель для всего лежащего в основе предложения. Среда обучения найдет наилучшее соответствие между состояниями модели и звуком. Опять же, книга HTK содержит хорошее руководство по этому вопросу.

Распознавание фонем в базе данных TIMIT предоставляет полный обзор методов с большим количеством ссылок на статьи. Например, эта классическая статья описывает базовый метод контекстно-независимого распознавания фонем. .

Dmytro Prylipko 20.02.2019

comment

Хорошо, я вижу. Значит, эти модели тишины не нужно тренировать в одиночку, верно? - Isaac; 25.02.2019

comment

Обычно каждая модель фонемы (включая тишину) тренируется вместе с другими на аудиополных предложениях. Разбиение высказываний на фонемы может занять очень много времени и места и на самом деле не нужно. - Dmytro Prylipko; 25.02.2019

comment

Извините, что снова беспокою вас, но на этапе обучения, когда вы сказали, объедините модели отдельных фонем в большую модель для всего лежащего в основе предложения. у вас просто модели фонем необучены? - Isaac; 25.02.2019

comment

Первоначально они не обучаются, а инициализируются глобальными средними значениями и значениями дисперсии, оцененными до начала фактического обучения. См. раздел «Создание монофонов с плоским началом»: www1.icsi.berkeley. edu/Speech/docs/HTKBook/node29.html - Dmytro Prylipko; 25.02.2019

Скрытые марковские модели для распознавания фонем в непрерывной речи

Ответы (1)

Похожие вопросы