Этот пост является продолжением предыдущего поста на этой странице. Вы можете получить к нему доступ здесь. Возьмите чашку кофе, и давайте быстро поговорим о моделировании звука.

Как было сказано ранее, проект был направлен на понимание общего ощущения от речи. Для достижения этой цели использовался ряд размеченных данных. Наборы данных были созданы путем записи актеров, читающих одну и ту же фразу, но с разными эмоциями.

Использование актеров дало приложению чистую версию речи в разных версиях. С другой стороны, это может затруднить обобщение, что дает очевидные ограничения для приложения. Хотя актеры учатся выражать себя естественно, когда это необходимо, повседневное взаимодействие может принимать разные формы.

Работать с мел-спектограммой все равно, что работать с изображением, преобразованным в вектор. Вы можете попробовать применить PCA для уменьшения размерности. Анализ основных компонентов найдет наилучшую линейную комбинацию признаков и преобразует ее в другие признаки, от лучшего к худшему. В то время как PCA важен для больших изображений, быстрые звуки и фразы не будут создавать большие спектрограммы, что делает PCA менее важным.

При работе с неразмеченными данными может применяться кластеризация. Можно использовать некоторые размеченные данные с кластеризацией для обозначения других данных. Это не относится к наборам данных проекта, но k-средние очень помогли бы в такой ситуации.

Для моделей машинного обучения модели классификации будут нашим подходом к проблеме классификации. Нет серебряной пули для хорошего результата. Реальным решением будет качество данных, размер набора данных и количество классов.

Первая проблема была рассмотрена в начале этой статьи. Обобщение будет сложнее с записями актеров. Запись реальных ситуаций создаст другие проблемы, такие как качество звука и даже то, насколько целесообразно будет записывать спонтанные моменты для каждого класса в достаточно большом наборе данных.

Количество занятий также будет иметь значение. Чем больше у вас занятий, тем хуже будет результат. Сокращение классов повысит точность, но снизит полезность модели. Если ваша модель работает только для грустных и сердитых, все остальные чувства будут помечены как одно из них, создавая запутанные классификации и делая приложение практически бесполезным.

Модель, используемая в приложении, использует семь классов с типичным случайным лесом. Мы также пробовали модели глубокого обучения, в частности CNN, которые хорошо работают с мел-спектрограммами. Основная проблема с моделями глубокого обучения — переоснащение недостаточно большими наборами данных. Чтобы CNN работала лучше, проекту потребуется как минимум вдвое больше данных. Из-за нехватки времени и доступности была выбрана модель ML.