В своем проекте последнего года я пытаюсь идентифицировать звуки собаки / лая / птицы в реальном времени (путем записи звуковых клипов). Я использую MFCC в качестве звуковых функций. Первоначально я извлек всего 12 векторов MFCC из звукового клипа с помощью библиотеки jAudio. Теперь я пытаюсь обучить алгоритм машинного обучения (на данный момент я не определился с алгоритмом, но, скорее всего, это SVM). Размер звукового клипа составляет около 3 секунд. Мне нужно уточнить некоторую информацию об этом процессе. Они есть,
Должен ли я обучать этот алгоритм с использованием MFCC на основе кадров (12 на кадр) или или общих MFCC на основе клипов (12 на звуковой клип)?
Чтобы обучить алгоритм, мне нужно рассматривать все 12 MFCC как 12 различных атрибутов или мне нужно рассматривать эти 12 MFCC как один атрибут?
Эти MFCC являются общими MFCCS для клипа,
-9.598802712290967 -21.644963856237265 -7.405551798816725 -11.638107212413201 -19.441831623156144 -2.780967392843105 -0.5792847321137902 -13.14237288849559 -4.920408873192934 -2.7111507999281925 -7.336670942457227 2.4687330348335212
Мы будем благодарны за любую помощь, чтобы преодолеть эти проблемы. Я не мог найти хорошей помощи в Google. :)