HMM против глубокого обучения для распознавания речи, эмоций (SER)

Какой подход будет лучше для создания системы обнаружения и распознавания эмоций речи? Скрытая марковская модель или подход глубокого обучения (RNN-LSTM)? Мне нужно построить систему SER, и я запутался между ними. Если есть лучшие модели, чем эти две, пожалуйста, сообщите.

Saad 25.03.2018 источник

comment

Видео Сираджа посвящено распознаванию речи, а вы спрашиваете о распознавании речи и эмоций. Знать, что кто-то сказал, и знать смысл того, что он сказал, — это очень разные вещи. Пожалуйста, поясните свой пост. - Brian O'Donnell 25.03.2018

comment

@ Брайан О'Доннелл, поэтому я удалил эту часть. Мой вопрос полностью связан с распознаванием речи, эмоций. Извини за это. - Saad 25.03.2018

Ответы (1)

arrow_upward
3
arrow_downward

Решения на основе HMM и RNN-LSTM не считаются очень точными для SER. Я считаю, что алгоритм ранжирования на сегодняшний день основан на нейронных сетях глубокой свертки сетчатки (DRCNN). См. раздел Распознавание речевых эмоций с использованием нейронных сетей Deep Retinal Convolution, автор Niu. , Яфэн; Цзоу, Дуншэн; Ню, Ядун; Он, Чжунши; Tan, Hua и опубликовано в июле 2017 года. Авторы достигли средней точности более 99% в следующих базах данных: IEMOCAP, EMO-DB и SAVEE.

Brian O'Donnell 25.03.2018

comment

Можете ли вы помочь мне разбить этот подход на более простые/легкие шаги? Из этой статьи я понял, что сначала мне нужно преобразовать голоса в спектрограмму с помощью алгоритма увеличения данных, основанного на принципе визуализации сетчатки (DAARIP), а затем ввести их в DCNN. - Saad; 26.03.2018

comment

Вы вообще знаете, как тренировать Alexnet? - Brian O'Donnell; 28.03.2018

HMM против глубокого обучения для распознавания речи, эмоций (SER)

Ответы (1)

Похожие вопросы