본문 바로가기

연구실 공부

[논문] PAVITS: Exploring Prosody-Aware VITS for End-to-End Emotional Voice Conversion

728x90

https://ieeexplore.ieee.org/document/10446191

 

PAVITS: Exploring Prosody-Aware VITS for End-to-End Emotional Voice Conversion

In this paper, we propose Prosody-aware VITS (PAVITS) for emotional voice conversion (EVC), aiming to achieve two major objectives of EVC: high content naturalness and high emotional naturalness, which are crucial for meeting the demands of human perceptio

ieeexplore.ieee.org

해당 논문을 보고 작성했습니다.

 

Abstract

이 논문에서 저자들은 emotional voice conversion (EVC)을 수행하는 Prosody-aware VITS (PAVITS)를 제안합니다. 이는 high content naturalness and high emotional naturalness를 달성했습니다. 변환된 audio의 content naturalness를 향상시키기 위해, 저자들은 VITS에서 영감을 받아 end-to-end EVC architecture을 개발했습니다. acoustic converter와 vocoder를 통합함으로써, 기존 EVC model에서 흔히 발생하는 emotional prosody training과 runtime-conversion 간의 불일치 문제를 효과적으로 해결했습니다. 감정적 자연스러움을 향상시키기 위해, 저자들은 세밀한 prosody variation을 model 하기 위해 emotion descriptor를 사용합니다. 그리고 제공된 emotion label을 기반으로 text로부터 prosdoy feature를 예측하는 prosody predictor를 제안합니다. 특히 두 가지 modality의 latent prosody feature 간의 연결을 확립하기 위해 prosody alignment loss를 도입하여 학습의 효율성을 보장했습니다.

 

Introduction

Emotional voice conversion (EVC)는 발화의 감정 상태를 또 다른 감정 상태로 변환하면서 speaker identity 및 content는 유지하는 것을 목표로 합니다. EVC에는 2가지 주요 challenge가 존재합니다: low content naturalness와 converted audio가 human voice보다 감정적 풍부함이 부족하다는 점입니다. 이전 연구들은 frame-based solution에 초점을 맞췄습니다. 하지만 고정된 길이라는 한계와 불안정한 학습 문제로 인해 변환된 audio의 자연스러움이 저조합니다. 이러한 문제를 해결하기 위해, auto-encoder-based framework을 사용하여 가변 길이 speech generation을 수행하도록 연구가 진행되었습니다. 하지만 speech emotion은 본질적으로 supra-segmental 특성을 가지므로, spectrogram에서 감정 표현을 학습하기가 어렵습니다. 이를 해결하기 위해, 다양한 pretraining method들을 활용하거나 2-stage training 전략을 사용하는 EVC system들이 등장했습니다.

이러한 연구들이 EVC에서 큰 성과를 거두었지만, 변환된 audio는 여전히 사람의 인지적 요구를 충족하지 못하고 있습니다. 특히 최근 EVC model들은 일반적으로 cascade manner로 동작합니다. acoustic converter와 vocoder가 결합된 방식이며, 이로 인해 emotional prosody training과 run-time conversion 사이 mismatch가 발생하게 되며, 궁극적으로 audio quality를 저하시키게 됩니다. 하지만 이 gap을 줄이려는 시도가 없었으며, 미세한 운율 변화를 포착하는 것을 목표로 하는 model도 없었습니다.

본 논문에서 저자들은 VITS의 high audio quality에 영감을 받아, 저자들은 EVC를 수행하는 Prosody-aware VITS (PAVITS)를 제안합니다. 이는 content naturalness와 emotional naturalness를 향상시키기 위해 암시적으로 prosody를 modelling 하는 새로운 end-to-end system입니다. 저자들이 알기론, PAVITS가 acoustic feature conversion과 waveform reconstruction 사이 차이를 해결하는 첫 EVC method입니다. original VITS와 비교했을 때, 저자들의 방식은 여러 key innovation을 포함합니다. speech quality와 content naturalness를 향상시키기 위해, 저자들은 VITS를 기반으로 two-stage mismatch 문제를 해결하고 multi-task learning을 수행합니다. 왜냐하면 TTS는 잘못 발음되는 경우를 많이 감소시켜 줄 수 있기 때문에 TTS 방식으로도 학습을 진행합니다. 감정적 자연스러움을 향상시키기 위해, 저자들은 다양한 감정 상태와 관련된 prosody 차이를 capture 하도록 emotion descriptor를 사용합니다. Valence-Arousal-Dominance value를 condition으로 사용하여 utterance-level의 emotional representation을 학습합니다. prosody integrator를 통해 latent code를 더욱 정교하게 만들어 speaker identity와 linguistic content를 통합해 미세한 prosody 변화를 modelling 합니다. 그다음 normalizing flow를 통해 frame-level prosody feature를 얻습니다. frame-level emotional prosody feature를 예측하기 위해 emotion label과 phoneme-level text embedding을 사용하는 prosody predictor를 소개합니다. 마지막으로 저자들은 audio와 text에서 얻어진 prosody feature를 align 하기 위해 prosody alignment loss를 고안하여 두 modality를 연결합니다.

 

Proposed Method

위 그림과 같이 저자들은 VITS에서 영감을 받아 model이 conditional variational autoencoder (VAE)와 4개 part로 구성됩니다. textual prosody prediction module, acoustic prosody modeling module, information alignment module, emotional speech synthesis module로 구성됩니다.

textual prosody prediction (TPP) module은 prior distribution $p(z_1, c_1)$을 예측합니다.

$$z_1 = TPP(c_1) \sim p(z_1 | c_1)$$

위 식을 사용해 prior distribution을 예측합니다. 여기서 $c_1$는 text t와 emotion label e를 포함합니다.

acoustic prosody modeling (APM) module은 source audio에서 emotional feature를 복잡한 prosody variation, speaker identity, linguistic content와 분리합니다. posterior distribution $q(z_2 | c_2)$는 다음 식으로 구해집니다.

$$z_2 = APM(c_2) \sim q(z_2 | c_2)$$

여기서 $c_2$는 audio y와 emotion label e를 포함합니다.

information alignment module은 text와 speech alignmnet 뿐만 아니라 textual prosody representation과 acoustic prosody representation alignment를 가능하게 합니다. emotional speech synthesis (ESS) module에서는 decoder가 latent representation z에 따라 waveform $\hat{y}$를 reconstruct 합니다.

$$\hat{y} = Decoder(z) \sim p(y|z)$$

여기서 z는 $z_1$ 또는 $z_2$로 구해집니다.

proposed model은 EVC 뿐만 아니라 emotional TTS을 수행할 수 있으며, EVC를 main으로 focus 했다고 합니다.

 

Textual prosody prediction module

text t와 emotion label e를 포함한 condition $c_1$가 주어지면 textual prosody prediction module은 CVAE의 prior distribution $p(z_1 | c_1)$을 제공합니다. text encoder는 phoneme을 input으로 받아 linguistic information $h_{text}$를 추출합니다. 각 phoneme에 따라 prosody는 상당히 많이 변하기 때문에, 저자들은 prosody predictor를 사용하여 representation을 frame-level로 확장하고 emotion label을 기반으로 prosody variation을 예측합니다. 이는 normalizing flow $f_{\theta}$를 이용해 평균 $\mu_{\theta}$와 분산 $\sigma_{\theta}$를 예측합니다.

 

식으로 나타내면 위와 같습니다.

 

- text encoder

학습 과정은 dataset 내 text content 양에 의해 제한되므로, 저자들은 전처리 과정을 통해 text 또는 character를 phoneme sequence로 먼저 변환합니다. 이를 통해 사용할 수 있는 data 양을 최대화하였습니다. VITS와 유사하게, text encoder는 multiple Feed-Forward Transformer (FFT) block와 linear projection layer로 구성되며 linguistic feaeture를 표현합니다.

 

- prosody predictor

prosody predictor는 text encoder로 추출된 phoneme-level linguistic information을 이용하여 주어진 emotion label에 맞는 frame-level prosody variation을 예측합니다. 단순히 stacked flow의 depth를 증가시키는 것이 만족스러운 emotional prosody variation을 만들어주지 않는다는 것을 발견했습니다. prosody predictor를 사용하게 되면 TPP와 APM module의 prosody modeling 성능을 개선시켜 줍니다. prosody predictor는 여러 one-dimensional convolution layer와 linear projection layer로 구성됩니다. predicted emotional prosody information과 linguistic information을 통합하여 duration predictor의 input으로 사용했으며, 이를 통해 emotional speech duration의 modeling을 크게 향상시켰습니다.

 

Acoustic prosody modeling module

acoustic prosody modeling module은 dimensional emotion representation (i.e., Valence-Arousal-Dominance value)을 기반으로 세밀한 prosody variation을 나타내는 emotional feature를 제공합니다. speaker identity와 speech content information을 분리한 다음, prosody integrator를 사용하여 feature를 fusion 해 posterior distribution $q_(z_2|c_2)$을 얻습니다. 식으로 표현하면 다음과 같습니다.

 

- speaker encoder

APM module이 이전 model들보다 훨씬 더 emotional prosody을 focus 하기 때문에, conversion 과정에서 speaker characteristic이 의도치 않게 간과될 수 있습니다. speaker modeling에서 fundamental frequency (f0)가 중요한 역할을 한다는 것을 기반으로, 저자들은 F0 predictor에 여러 one dimensional convolution layer와 linear layer를 추가하여 speaker encoder를 구성하여 이 문제를 해결했습니다.

 

- emotion descriptor

PAVITS의 emotional naturalness를 향상시키기 위해, 저자들은 Russell's circumplex theory를 기반으로 하는 SER system을 제안합니다. 이는 Valence-Arousal-Dominance 값을 conditional input으로 사용하여 dimensional emotion representation을 예측합니다. 이 input은 미묘한 prosody variation을 capture 할 수 있도록 guide 합니다. utterance-level에서 감정에 대한 human perceptual을 만족시키는 동시에, segment level에서 frame level까지의 자연스러운 prosody variation을 유지하여 복잡한 detail을 보존합니다.

 

- prosody integrator

prosody integrator는 speaker identity attribute, emotional prosody characteristic, linear spectrogram에서 추출된 intrinsic content property를 결합하여 사용합니다. 이는 여러 convolution layer, Wavenet residual block, linear projection layer로 구성됩니다.

 

Information alignment module

VITS에는 Monotonic Alignment Search (MAS)라 불리는 alignmnet mechanism이 존재하며, 이는 textual and acoustic feature에만 의존하여 동작합니다. 그래서 emotional prosody 뉘앙스를 capture 하기엔 부족하며 TPP와 APM module 사이 연결을 방해할 수 있습니다. 이러한 한계를 극복하기 위해, 저자들은 Kullback-Leibler divergence 기반 추가적인 prosody alignment loss를 사용합니다. TPP와 APM module 전반에서 frame-level prosody modeling을 위한 joint training을 진행합니다. 이로써 model 내에서 운율 정보의 통합과 synchronization이 향상됩니다. 식은 다음과 같습니다.

$$L_{psd} = D_{KL}(q(z_2|c_2) || p(z_1 | c_1))$$

 

Emotional speech syntheiss module

emotional speech snythesis module에서 decoder는 latent z 기반 waveform을 생성하고 content와 emotion의 자연스러움을 향상시키기 위해 adversarial learning을 수행합니다. content의 자연스러움을 향상시키기 위해, $L_{recon_cls}$는 predicted and target spectrogram 사이 L1 distance를 minimize하고, $L_{recon_fm}$은 각 discriminator의 중간 layer에서 추출한 feature map 사이 L1 distance를 minimize합니다. 이를 통해 학습의 안정성을 향상시킵니다. 전자는 주로 학습 초기 및 중간 단계에서 영향을 주며, 후자는 학습 중후반에 더 큰 역할을 하므로 저자들은 two coefficient를 도입하여 기여도를 균형있게 조절했습니다.

$$L_{recon} = \gamma L_{recon_cls} + \beta L_{recon_fm}(G)$$

emotion의 perception을 향상시키기 위해, $L_{emo_cls}$는 emotional classification의 loss를 나타내고, $L_{emo_fm}$는 emotion discrimination을 위한 feature mapping을 나타냅니다.

$$L_{emo} = L_{emo_cls} + L_{emo_fm}(G)$$

 

Final loss

CVAE와 adversarial training을 결합함으로써 저자들의 전체 loss를 다음과 같이 정의할 수 있습니다.

 

$L_{adv}(G)$는 generator의 adversarial loss를 나타내고  $L_{adv}(D)$는 discriminator의 adversarial loss를 나타냅니다. $L_{F0}$는 predicted F0와 ground-truth 사이 L2 distance를 minimize 하며, $L_{dur}$는 predicted duration과 ground-truth 사이 L2 distance를 minimize 합니다.

 

Run-time conversion

runtime때 2가지 method가 있습니다: 고정된 길이 방식 (Audio-$z_2$-Audio, named PAVITS-FL), 가변 길이 방식 (Audio-Text-$z_1$-Audio, named PAVITS-VL). 전자는 APM module을 사용하여 audio로부터 latent z를 예측하며, text encoding에 영향을 받지 않아 robustness 합니다. 하지만 Dynamic Time Warping (DTW) 때문에 고정된 길이의 spectrum만 생성할 수 있습니다. 후자는 TPP module을 사용하여 automatic speech recognition (ASR) technique으로부터 얻어진 text에 대응하는 latent z를 예측합니다. duration prediction modeling에 구애받지 않고 자연스러움을 향상시킵니다. 마지막으로 ESS module의 decoder는 latent $z$($z_1$ or $z_2$)를 input으로 받아 분리된 vocoder 없이 converted waveform을 바로 합성합니다.

 

Experiments

 

Dataset

저자들은 Emotional Speech Datsaet (ESD)를 사용하였습니다. neutral to angry, happy, sad, surprise 에 대해 실험을 진행했습니다. 각 emotion pair들로 300개 utterance를 학습 때 사용했으며, 30개 utterance를 evaluation에서 사용하고, 20개 utterance를 test에서 사용했습니다.

 

Experimental Setup

저자들은 baseline model로 CycleGAN, StarGAN, Seq2seq-WA2, VITS를 사용했습니다. PAVITS-FS는 fixed-length framework를 의미하고, PAVITS-VL은 source audio에서 text를 얻기 위해 ASR를 사용한 variable-length framework을 의미합니다.

 

Results & Discusison

 

Mel-cepstral distortion (MCD) objective evaluation을 수행했으며 결과는 위와 같습니다. subjective evaluation으로는 Mean Opinion Score (MOS) test를 수행했습니다. speech의 quality와 naturalness에 대해 평가를 진행했습니다. 결과는 아래와 같습니다.

 

24명에게 평가를 진행했으며 총 148개 utterance를 가지고 수행했습니다. 

 

변환된 audio와 human voice 사이 emotional similarity result는 위와 같습니다.

PAVITS가 objective and subjective evaluation 모두 향상된 결과를 보였습니다. objective MCD와 subjective MOS 모두에서, original VITS와 PAVITS model 모두 다른 model보다 뛰어난 결과를 보였으며 neural acoustic  converter와 vocoder를 통합하는 것이 EVC task에서 적절하다는 것을 입증했습니다.

 

Ablation Study

 

저자들이 prosody predictor, prosody alignment, prosody integrator를 제거하면서 ablation study를 진행했습니다. 결과는 위와 같습니다.

 

Conclusion

이 논문에서 저자들은 emotional voice conversion (EVC)를 수행하는 Prosody-aware VITS (PAVITS)를 제안합니다. prosody alignment를 통해 acoustic prosody modeling (APM)과 textual prosody prediction (TPP)를 통합함으로써, 세밀한 emotional prosody feature를 효과적으로 학습할 수 있습니다. 실험을 통해 PAVITS의 content naturalness와 emotional naturalness가 뛰어나다는 것을 보였습니다.

728x90