Обратный STFT спектрограммы без информации о фазе

Пытаясь обучить нейронную сеть работе с аудиоданными, я хотел бы оценить некоторые ее внутренние представления. Один из них представляет собой спектрограмму магнитуды без информации о фазе, но с большим перекрытием между окнами Ханна.

Есть ли способ использовать tf.contrib.signal.inverse_stft для генерации аудиосигнала из этой спектрограммы только для величины? Если нет, есть ли какой-то другой простой способ (например, что-то, влияющее на сумму полосовых фильтров на белом шуме) для этого?


person Anaphory    schedule 11.04.2018    source источник


Ответы (1)


Я мало что знаю о inverse_stft tf; кажется, для работы требуется дополнительная оконная функция.

Но чтобы оценить исходную форму сигнала из его STFT без информации о фазе, вы можете посмотреть либо на алгоритм Гриффина-Лима, либо на вокодер WaveNet, основанный на спектрограмме Mel (который может быть получен из линейной спектрограммы из STFT).

Алгоритм Гриффина-Лима: https://github.com/bkvogel/griffin_lim

Вокодер WaveNet: https://github.com/r9y9/wavenet_vocoder

person Edy    schedule 02.03.2019
comment
Ах, точно, я забыл, что спросил это. Griffin-Lim действительно то, что я использовал. - person Anaphory; 03.03.2019