У меня есть база данных, которая содержит потоковое видео. Я хочу рассчитать функции LBP из изображений и аудио MFCC, и для каждого кадра в видео у меня есть аннотация. В аннотацию встроены видеокадры и время видео. Таким образом, я хочу сопоставить время, которое у меня есть от аннотации, до результата mfcc. Я знаю, что sample_rate = 44100
from python_speech_features import mfcc
from python_speech_features import logfbank
import scipy.io.wavfile as wav
audio_file = "sample.wav"
(rate,sig) = wav.read(audio_file)
mfcc_feat = mfcc(sig,rate)
print len(sig) //2130912
print len(mfcc_feat) // 4831
Во-первых, почему результат длины mfcc равен 4831 и как отобразить это в аннотации, которая у меня есть в секундах? Общая продолжительность видео составляет 48 секунд. И аннотация видео 0 везде, кроме окон 19-29 секунд, где 1. Как я могу найти образцы в окне (19-29) по результатам mfcc?