[2020] Речевое поколение 1: генерирующая модель квазипериодической формы волны с расширенным…

В этой статье представлены предлагаемые нами QPNet и QPPWG с зависимой от основного тона расширенной сверточной нейронной сетью (PDCNN) и квазипериодической (QP) структурой. Если вы заинтересованы, вы также можете получить доступ к версии видео или версии мандарин (中文).

Категория вокодера

В последней статье ([2020] Речевое поколение 0: вокодер и генеративные модели речевых сигналов на основе RNN и CNN) мы разделили методы вокодера на две основные категории. Первый – это вокодер с фильтром источника, который включает в себя модуль генерации возбуждения и модуль резонансной фильтрации. Входные данные представляют собой акустические характеристики, а выходные данные — форму речевого сигнала. Второй — это унифицированный вокодер, который напрямую моделирует форму речевого сигнала с помощью одной нейронной сети. Входными данными могут быть акустические или лингвистические характеристики, а выходными данными также могут быть речевые сигналы.

Хотя эти нейронные вокодеры обеспечивают высокоточное генерирование речи, природа, управляемая данными, с очень ограниченным предварительным знанием речи делает их неспособными к акустической управляемости, такой как управляемость по высоте тона. Чтобы решить эту проблему, мы предлагаем адаптивную сеть для введения в сеть априорной информации о шаге для улучшения управляемости по шагу. В этой статье представлены предлагаемая нейронная сеть расширенной свертки, зависящая от основного тона (PDCNN), и квазипериодическая (QP) структура.

Термины указателя — нейронный вокодер, WaveNet, параллельный WaveGAN, расширенная свертка, зависящая от основного тона, квазипериодическая структура.

Проблема единого вокодера

Как известно, речь представляет собой квазипериодический сигнал, включающий в себя периодическую и апериодическую составляющие. Периодическая составляющая имеет долговременную корреляцию, а апериодическая составляющая имеет краткосрочную корреляцию.

Неэффективное моделирование речи

В результате моделирование речи с использованием фиксированной унифицированной сети без каких-либо предварительных знаний о периодичности звука неэффективно. Например, как показано на следующем рисунке, фиксированная длина принимающего поля и разреженность выборки заставляют сеть передискретизировать периодический сигнал, что означает, что принимающее поле включает много избыточных выборок.

Ограниченная управляемость по высоте

Кроме того, из-за природы унифицированной модели без предварительного знания высоты тона унифицированные вокодеры не моделируют в явном виде периодические компоненты. Таким образом, этим вокодерам трудно генерировать речь с точным шагом, когда они обусловлены невидимыми акустическими характеристиками, такими как F0, не находящимся в наблюдаемом диапазоне F0 обучающих данных или невидимыми спектральными парами и парами F0.

Генеративная модель квазипериодических сигналов

PDCNN иструктура QP

Основным недостатком CNN/расширенного CNN (DCNN) является фиксированная геометрическая структура. В частности, свертка с ядром размера два может быть сформулирована как

y обозначает карту объектов, i обозначает ввод, а o обозначает вывод. W^(c) и W^(p) — обучаемые весовые матрицы для текущей и предыдущей выборок соответственно. t — индекс времени, а d — размер расширения. Для CNN значение d равно единице. Для DCNN d предопределено и не зависит от времени. Однако для предлагаемого нами PDCNN размер дилатации d’ зависит от высоты тона и зависит от времени. То есть исходный размер расширения d умножается на изменяющийся во времени масштаб, зависящий от высоты тона E, чтобы получить размер расширения d' PDCNN. .

Для реализации PDCNN, поскольку прямое изменение модуля CNN для динамического изменения размера расширения затруднено и неудобно для аппаратного обеспечения, мы разделяем ядро CNN и динамически индексируем входную карту объектов, что эквивалентно изменению размера расширения каждой свертки. вычисление. В частности, результаты CNN 2 × 1 эквивалентны суммированию результатов двух CNN 1 × 1, а именно CNN ^ (c) для текущих выборок и CNN ^ (p) для прошлых выборок. Следовательно, мы можем индексировать карту входных признаков CNN ^ (p) 1 × 1, чтобы динамически изменять размер расширения каждой выборки на основе мгновенного F0.

С размером расширения, зависящим от высоты тона, каждый образец имеет определенную эффективную длину рецептивного поля, соответствующую его высоте тона. Например, как показано на следующем рисунке, хотя сигналы (а) и (б) имеют разные частоты, их эффективные рецептивные поля по-прежнему содержат одинаковое количество циклов за счет изменения длины промежутков свертки. Это означает различную разреженность сеток дискретизации CNN.

Поскольку речь имеет периодическую и апериодическую составляющие, мы предлагаем структуру КП для их одновременного моделирования. Структура QP состоит из каскадных фиксированных и адаптивных блоков. Фиксированные блоки с фиксированными сетевыми структурами используют DCNN для моделирования краткосрочных корреляций апериодических компонентов. Адаптивные блоки используют PDCNN для моделирования долгосрочных корреляций периодических компонентов, а его сетевая архитектура динамически изменяется в соответствии с мгновенным значением F0.

QPNet

Во-первых, мы применяем структуру QP к вокодеру WaveNet [A. Тамамори+, 2017]. Основное отличие от WaveNet заключается в том, что предлагаемая QPNet заменяет несколько фиксированных блоков WaveNet предложенными адаптивными блоками для улучшения управляемости по высоте и эффективности моделирования. С предложенной структурой QP QPNet обеспечивает такое же качество речи и более высокую точность основного тона, чем WaveNet, в то время как размер модели вдвое меньше, чем у WaveNet. Однако, хотя размер модели уменьшен на 50%, он все равно большой. Большая сеть и авторегрессионный (AR)-механизм делают генерацию еще далекой от реального времени.

QPPWG

В результате мы применяем структуру QP к параллельной WaveGAN (PWG [R. Yamamoto+, 2020]), которая представляет собой компактную генеративную модель без дополненной реальности. Предлагаемый QPPWG наследует дискриминатор и модуль потерь multi-STFT от PWG, а основное улучшение заключается в применении структуры QP к генератору PWG. Даже если размер модели PWG составляет всего 3% от размера WaveNet, QPPWG еще больше уменьшает размер модели PWG на 30% при достижении аналогичного качества речи, но с более высокой управляемостью по высоте.

С другой стороны, по сравнению с QPNet, основным отличием QPPWG является механизм Non-AR, ввод гауссовского шума, вывод необработанной формы сигнала и размер модели всего 5%. По нашим объективным и субъективным оценкам, структура QP показывает эффективность как в WaveNet-, так и в PWG-подобных моделях. Структура QP позволяет этим моделям лучше контролировать высоту тона при меньшем размере модели, сохраняя при этом одинаковое качество речи.

Обсуждение

Понимание структуры QP

Поскольку PWG и QPPWG напрямую выводят образцы необработанных сигналов, мы можем легко проанализировать модель, чтобы понять внутренний механизм генерации. В соответствии с визуализированными кумулятивными промежуточными результатами мы можем обнаружить, что PWG постепенно генерирует как гармонические, так и негармонические компоненты. Однако модель QPPWG с адаптивным к фиксированному порядку сначала генерирует гармонические компоненты, а затем негармонические компоненты. То есть первые 10 адаптивных блоков фокусируются на моделировании компонентов, связанных с высотой звука, а последние 10 фиксированных блоков фокусируются на моделировании компонентов, связанных со спектром.

В отличие от модели QPPWG с порядком от адаптивного к фиксированному, модель QPPWG с порядком от фиксированного к адаптивному сначала генерирует негармонические компоненты, а затем гармонические. Визуализированные результаты подтверждают наше предположение о том, что адаптивные блоки моделируют компоненты основного тона с долговременными зависимостями, а фиксированные блоки моделируют компоненты, связанные со спектром, с краткосрочными зависимостями.

QPPWG и NSF

Хотя QPPWG представляет собой унифицированный вокодер, его каскадная сетевая структура очень похожа на модель источника-фильтра. Адаптивные блоки аналогичны генерации возбуждения, а фиксированные блоки аналогичны спектральной фильтрации. По сравнению с моделью нейронного фильтра-источника (NSF [X. Wang+, 2019]), которая также использует архитектуру DCNN без AR, основное отличие состоит в том, что генерация возбуждения QPPWG выполняется с помощью нейронная сеть.

PDCNN и деформируемая CNN

Идея динамически обновляемого механизма внимания, позволяющего сети знать, «куда смотреть» на каждом временном шаге, не нова. Деформируемая CNN [J. Dai+, 2017] является примером, в котором достигается заметное улучшение задачи обнаружения объектов. В частности, для CNN сетка выборки фиксирована, поэтому охват одного ядра также ограничен. Простой способ увеличить покрытие при сохранении стоимости вычислений на том же уровне — увеличить размер расширения, как DCNN. Однако фиксированные смещения сетки дискретизации неэффективны, расширенное покрытие также может содержать много нежелательных частей. Поэтому авторы деформируемой CNN предложили обучаемые переменные во времени смещения выборки, чтобы сеть сосредоточилась на желаемых областях.

Идея очень похожа на предложенную нами PDCNN для изменения индекса карты входных объектов. Основное отличие состоит в том, что деформируемая CNN использует нейронную сеть для прогнозирования индекса, но индекс PDCNN параметрически определяется шагом ввода и частотой дискретизации. Следовательно, PDCNN является частным случаем деформируемой CNN с предварительным знанием высоты тона. Кроме того, деформируемая CNN индексирует входную карту объектов один раз в каждом слое, но предлагаемая PDCNN изменяет размер расширения для каждой выборки ядра, и именно поэтому нам нужно разделение ядра.

Заключение

Для предлагаемых нами модулей и моделей PDCNN очень проста и может быть легко интегрирована в любую модель на основе CNN. Структура QP делает адаптивную сеть, зависящую от основного тона, доступной, а ее архитектура, подобная фильтру источника, более податлива и интерпретируема. По сравнению с оригинальными WaveNet и PWG, предлагаемые QPNet и QPPWG соответственно обеспечивают лучшую управляемость по высоте и аналогичное качество речи с моделями меньшего размера.

Ссылка