본문 바로가기

연구실 공부

[논문] Cross-Speaker Emotion Transfer for Low-Resource Text-to-Speech Using Non-Parallel Voice Conversion with Pitch-Shift Data Augmentation

728x90

https://arxiv.org/abs/2204.10020

 

Cross-Speaker Emotion Transfer for Low-Resource Text-to-Speech Using Non-Parallel Voice Conversion with Pitch-Shift Data Augment

Data augmentation via voice conversion (VC) has been successfully applied to low-resource expressive text-to-speech (TTS) when only neutral data for the target speaker are available. Although the quality of VC is crucial for this approach, it is challengin

arxiv.org

해당 논문을 보고 작성하였습니다.

 

Abstract

voice conversion (VC)를 통한 data augmentation은 target speaker의 neutral data만 사용할 수 있는 low-resource expressive text-to-speech (TTS)에서 성공적으로 사용되고 있습니다. VC의 quality가 중요한 approach이지만, low resource scenario에서는 data 양이 한정되어 있기 때문에 VC model을 안정적으로 학습하는 데 어려움이 존재합니다. 이러한 문제를 해결하기 위해, 저자들은 pitch-shifting과 VC technique을 결합한 새로운 data augmentation method를 제안합니다. pitch-shift data augmentation은 다양한 pitch 변화를 coverage 할 수 있으며, target speaker의 neutral data로 1000개 발화만 존재하더라도, VC와 TTS를 안정적으로 학습할 수 있도록 만들어줍니다. Fast-Speech2 based emotional TTS system과 저자들이 제안한 method를 결합했을 때, naturalness와 emotional similarity가 좋다는 것을 보였습니다.

 

Introduction

deep learning approach들은 expressive TTS에서 성공적으로 사용되고 있습니다. speech의 expressive style은 style attribute를 explicit label로 modeling하거나 input speech에서 high-level latent feature를 추출하여 modeling 할 수 있습니다. 하지만 low-resource scenario에서의 performance는 여전히 어려움이 있습니다.

low-resource TTS에서는 transfer learning, multi-speaker modeling 등을 사용해왔으며, 최근엔 data augmentation technique들이 성공적으로 사용되고 있습니다. voice conversion을 통한 cross-speaker style transfer method이 low-resource TTS에서 효과적으로 사용되었습니다. 이 method는 source and target speaker의 neutral spech dataset pair를 사용해 VC model을 학습합니다. 그다음 학습된 VC model을 사용해 source model의 expressive style (e.g. conversation)을 target speaker로 변환합니다. 최종적으로 TTS acoustic model은 VC-augmented speech와 recorded neutral speech를 이용해 학습됩니다. 

하지만 high-quality VC model은 data augmentation approach에서 유용하지만, low-resource condition처럼 제한된 양의 data가 존재하거나 highly expressive speech를 생성하는 경우엔 VC model을 안정적으로 학습하는데 어려움이 존재할 수 있습니다. 이러한 경우 정확한 prosody conversion이 어려워지며, VC model이 spectral conversion에 focus하는 경향을 보입니다. 

이러한 문제를 해결하기 위해, 저자들은 새로운 data augmentation method를 제안합니다. 이는 pitch-shift (PS) augmentation과 non-prallel VC-based augmentation입니다. 저자들의 method는 target speaker의 neutral data만 존재하더라도 emotion attribute를 변환하는데 적합하도록 VC 성능을 향상시키는 연구와는 다릅니다.

저자들이 제안한 method를 자세히 보면 다음과 같습니다. 먼저 source and target speaker의 neutral recording 모두에 PS-based augmentation을 수행합니다. VC model이 다양한 pitch 변화를 cover할 수 있기 때문에, 학습 과정의 안정성을 향상시켜줍니다. 추가적으로, short-time Fourier transform (STFT)-based $F_0$ regularization loss를 사용하여 VC 학습을 진행합니다. 이를 통해 target speaker의 $F_0$ trajectory에 대한 안정성이 향상됩니다. 이는 emotional speech segment에서 매우 중요한 부분입니다. 결과적으로 VC model이 source speaker의 speaking style을 target speaker로 안정적으로 변환할 수 있게 되며, target speaker의 emotional TTS system이 만들어지게 됩니다.

 

Method

 

위 그림은 저자들이 제안한 method의 overview를 보여줍니다. neutral, happiness, sadness라는 3가지 speaking style에 대한 연구를 진행하였습니다. proposed method는 PS-based data augmentation, VC-based data augmentation, emotional TTS system으로 구성됩니다.

 

PS-based data augmentation

 

위 그림이 PS-based data augmentation의 overview를 보여줍니다. pitch-synchronous overlap-add, vocoder와 같은 traditional PS method와 다르게, 저자들의 method는 $F_0$ estimation이 필요하지 않습니다. 그리고 waveform synthesis를 포함하지 않기 때문에, phase information을 reconstruct 할 필요가 없습니다. 구체적으로, 저자들이 제안한 method는 input signal의 pitch를 변환하기 위해, spectral의 미세한 구조를 직접 수정합니다. 위 그림의 (a)는 separation step을 의미하며, 여기서 STFT를 이용해 speech spectrogram을 계산합니다. 그다음 이를 lag-window method를 이용해 spectral envelope과 fine structure로 분리합니다. 이후 linear interpolation method를 이용하여 frequency axis에 따라 spectral fine structure를 stretch 합니다. $S_{t, k}$를 t번째 time index이고 k번째 frequency bin의 spectral fine structure라 하겠습니다. 이때 stretched spectrum은 다음 식으로 구해집니다.

 

$\alpha$는 semitone unit $p$에 맞춰 정해지는 stretching ratio입니다. generation step은 위 그림의 b이며, original spectral envelope과 그에 맞는 stretched spectral fine structure와 곱하여 pitch-shifted spectrogram을 얻습니다.

이를 통해 source and target speaker의 neutral data를 augment 합니다. 저자들은 -3 ~ 12 사이 semitone unit $p$을 사용하여 original recording보다 15배 더 많은 양의 data를 생성합니다. 모든 augmented dataset을 사용해 VC model을 학습합니다.

 

Non-parallel voice conversion

 

- Model

저자들은 학습 안정성과 quality가 좋아 non-parallel Scyclone model을 사용하였습니다. 이 method module인 CycleGAN-based spectrogram conversion model과 single-Gaussian WaveRNN-based vocoder로 구성됩니다. 하지만 저자들은 TTS model을 학습할 때 사용할 acoustic spectrogram을 augment하기 위해 VC를 수행하는 것이기 때문에, spectrogram conversion model만 사용하였습니다. log-Melspectrogram, continuous log $F_0$, voiced/unvoiced flags (V/UV)를 target acoustic feature로 사용하였습니다. VC model을 이용하여 additional feature를 예측하는 것은 $F_0$-dependent high-fidelity neural vocoder를 사용하는 emotional TTS model을 생성할 때 필수적입니다.

 

- STFT $F_0$ regularization loss function

prosody feature의 부자연스러운 변환을 피하기 위해, 저자들은 STFT-based $F_0$ regularization loss function을 제안합니다. spectrogram domain $F_0$ loss function을 사용했던 이전 연구에 따라, 저자들도 spectrogram domain에서 regularization loss function을 정의하였습니다.

$X_{n, k}$를 n번째 frame, k번째 frequency bin에서 추출한 STFT magnitude라 하고 $\hat{X}_{n,k}$를 같은 위치의 predicted $F_0$ sequence의 STFT magnitude라 하겠습니다. regularization loss는 다음과 같이 정의됩니다.

 

$N, K, M$은 각각 frame 수, frequency bin 수, magnitude의 element 수를 나타냅니다. β는 regularization strength를 control 하는 hyperparameter입니다. speaking style의 정보가 거의 존재하지 않는 $F_0$의 fine structure component (i.e., STFt magnitude의 high-frequency component)만 regularize 하기 위해, 저자들은 β = 3으로 설정하였습니다. 그리고 저자들은 loss function을 여러 resolution으로 extend 하였습니다. 결과적으로 VC model을 proposed regularization loss, adversarial loss, cycle consistency loss, identity mapping loss function으로 optimize 합니다.

 

위 그림과 같이 regularization method 없이 생성한 $F_0$ trajectory는 불안정하게 왔다 갔다 하는 것을 볼 수 있습니다. regularization을 사용한 경우, $F_0$ trajectory의 안정성이 향상되어 VC model이 prosody variation의 필수적인 부분만 변경하는 데 focus 하는 것을 볼 수 있습니다.

 

- VC-based Data augmentation

위에서 언급한 criteria를 통해, source and target speaker의 pair speech database로 Scycloen model을 학습합니다. training data는 각 speaker마다 neutral recording과 PS-augmented data가 존재하는 상태입니다. 이제 VC model을 이용하여 source speaker의 emotional voice을 target speaker의 voice로 변환합니다. 동시에 TTS model의 학습 안정성을 위해, source speaker의 neutral voice도 target speaker의 voice로 변환합니다.

저자들은 모든 converted data와 target speaker의 neutral recording을 사용하여 target speaker로의 emotional TTS system을 학습합니다.

 

- Text-to-speech

저자들의 TTS model은 (1) input phoneme sequence를 acoustic feature로 변환하는 acoustic model, (2) acoustic feature는 waveform으로 변환하는 vocoder로 구성됩니다. acoustic model의 경우, FastSpeech2를 사용합니다. FastSpeech2를 emotional TTS로 adapt 하기 위해, 저자들은 external emotion code를 condition으로 사용합니다. vocoder의 경우, high-fidelity harmonic-plus-noise Parallel WaveGAN (HN-PWG)을 사용합니다.

Figure 1 (c)를 보면 data augmentation 결과로 TTS를 학습하는 과정을 보여줍니다. target speaker의 recorded data와 synthetic data를 mix 하고 acoustic model을 학습할 때 사용합니다. inference stage에서 TTS model은 inputting text와 emotion code를 가지고 emotional speech를 생성합니다. vocoder를 학습할 때는 data augmentation을 사용하지 않는데, vocoder를 학습할 때 많은 양의 train data가 필요하지 않으며, 실험을 통해 data 수가 충분하다는 것을 확인하였습니다. 

 

Experiments

 

저자들이 사용한 실험 data는 위와 같습니다. 실험 결과는 다음과 같습니다.

 

MOS 결과입니다. VC data augmentaion이 naturalness와 speaker/emotional similarity 향상에 있어 효과적인 모습을 보입니다. 저자들이 제안한 PS data augmentation을 추가하면 성능이 더욱 향상되었습니다. 특히, happiness 감정에서 naturalness와 emotion similarity가 크게 향상되었으며, source speaker의 감정을 잘 재현하였습니다. 그리고 적은 양의 data (1K)에서도 경쟁력 있는 성능을 보였습니다. 특히 neutral style에서 VC-TTS-PS보다 VC-TTS-PS-1K에서 더 나은 naturalness and speaker similarity를 달성했습니다. naturalness의 경우, source speaker의 database가 target speaker보다 더 자연스러운 speaking style을 가지고 있고 VC data augmented data의 상대적인 양이 더 많은 경우엔 source speaker의 style이 target speaker로 전이되어서 그렇다고 합니다. speaker similarity의 경우 training data의 $F_0$ 통계의 차이 때문에 발생한다고 합니다. VC-TTS-PS-1K를 학습할 때 사용한 training data 중 neutral data의 $F_0$가 VC-TTS-PS를 학습할 때 사용한 training data 중 neutral data의 $F_0$보다 4.04Hz 더 높았다고 합니다. target speaker의 $F_0$가 source speaker의 $F_0$보다 높은 dataset이었기 때문에, higher-pitched sample이 더 높은 speaker similarity를 갖는 경향이 있다고 합니다.

 

Conclusion

저자들은 low-resource expressive TTS system에서 사용할 수 있는 cross-speaker emotion style transfer method를 제안합니다. 저자들의 method는 PS-based and VC-based augmentation method를 결합하였으며, 이를 통해 VC와 TTS의 acoustic model을 안정적으로 학습할 수 있었습니다.

728x90