Скрытые марковские модели для распознавания фонем в непрерывной речи

Я знаю, как применить скрытую марковскую модель (HMM), когда у меня есть изолированная фонема. Мне просто нужно было бы создать несколько моделей HMM (по крайней мере, с 3 состояниями на модель), по одной для каждой фонемы, вычислить прямой алгоритм для всех из них и посмотреть, какое из них имеет наибольшую вероятность.

Но теперь у меня есть непрерывная база данных речи, фонемы помечены в каждом кадре (TIMIT). Как мне обучить HMM, чтобы он мог распознавать фонемы в непрерывной речи?


person Isaac    schedule 20.02.2019    source источник


Ответы (1)


Вкратце: для непрерывного распознавания речи вы соединяете свои модели фонем в большой HMM, используя вспомогательные модели тишины.

Во-первых, вы можете обучать модели изолированным фонемам и применять их к непрерывной речи. Например, вы можете разделить тренировочное аудио на части в соответствии с существующими метками.

На этапе распознавания применение декодирования Витерби (наиболее вероятной последовательности скрытых состояний) к комбинированной модели эквивалентно распознаванию последовательности фонем. Для получения более подробной информации вы можете изучить соответствующую главу из книги HTK. .

Чтобы обучить HMM на непрерывных данных, вы также проделываете аналогичный трюк: объединяете отдельные модели фонем в большую модель для всего лежащего в основе предложения. Среда обучения найдет наилучшее соответствие между состояниями модели и звуком. Опять же, книга HTK содержит хорошее руководство по этому вопросу.

Распознавание фонем в базе данных TIMIT предоставляет полный обзор методов с большим количеством ссылок на статьи. Например, эта классическая статья описывает базовый метод контекстно-независимого распознавания фонем. .

person Dmytro Prylipko    schedule 20.02.2019
comment
Хорошо, я вижу. Значит, эти модели тишины не нужно тренировать в одиночку, верно? - person Isaac; 25.02.2019
comment
Обычно каждая модель фонемы (включая тишину) тренируется вместе с другими на аудиополных предложениях. Разбиение высказываний на фонемы может занять очень много времени и места и на самом деле не нужно. - person Dmytro Prylipko; 25.02.2019
comment
Извините, что снова беспокою вас, но на этапе обучения, когда вы сказали, объедините модели отдельных фонем в большую модель для всего лежащего в основе предложения. у вас просто модели фонем необучены? - person Isaac; 25.02.2019
comment
Первоначально они не обучаются, а инициализируются глобальными средними значениями и значениями дисперсии, оцененными до начала фактического обучения. См. раздел «Создание монофонов с плоским началом»: www1.icsi.berkeley. edu/Speech/docs/HTKBook/node29.html - person Dmytro Prylipko; 25.02.2019