HMM против глубокого обучения для распознавания речи, эмоций (SER)

Какой подход будет лучше для создания системы обнаружения и распознавания эмоций речи? Скрытая марковская модель или подход глубокого обучения (RNN-LSTM)? Мне нужно построить систему SER, и я запутался между ними. Если есть лучшие модели, чем эти две, пожалуйста, сообщите.


comment
Видео Сираджа посвящено распознаванию речи, а вы спрашиваете о распознавании речи и эмоций. Знать, что кто-то сказал, и знать смысл того, что он сказал, — это очень разные вещи. Пожалуйста, поясните свой пост.   -  person Brian O'Donnell    schedule 25.03.2018
comment
@ Брайан О'Доннелл, поэтому я удалил эту часть. Мой вопрос полностью связан с распознаванием речи, эмоций. Извини за это.   -  person Saad    schedule 25.03.2018


Ответы (1)


Решения на основе HMM и RNN-LSTM не считаются очень точными для SER. Я считаю, что алгоритм ранжирования на сегодняшний день основан на нейронных сетях глубокой свертки сетчатки (DRCNN). См. раздел Распознавание речевых эмоций с использованием нейронных сетей Deep Retinal Convolution, автор Niu. , Яфэн; Цзоу, Дуншэн; Ню, Ядун; Он, Чжунши; Tan, Hua и опубликовано в июле 2017 года. Авторы достигли средней точности более 99% в следующих базах данных: IEMOCAP, EMO-DB и SAVEE.

person Brian O'Donnell    schedule 25.03.2018
comment
Можете ли вы помочь мне разбить этот подход на более простые/легкие шаги? Из этой статьи я понял, что сначала мне нужно преобразовать голоса в спектрограмму с помощью алгоритма увеличения данных, основанного на принципе визуализации сетчатки (DAARIP), а затем ввести их в DCNN. - person Saad; 26.03.2018
comment
Вы вообще знаете, как тренировать Alexnet? - person Brian O'Donnell; 28.03.2018