https://arxiv.org/abs/2302.10536
Nonparallel Emotional Voice Conversion For Unseen Speaker-Emotion Pairs Using Dual Domain Adversarial Network & Virtual Domain P
Primary goal of an emotional voice conversion (EVC) system is to convert the emotion of a given speech signal from one style to another style without modifying the linguistic content of the signal. Most of the state-of-the-art approaches convert emotions f
arxiv.org
해당 논문을 보고 작성하였습니다.
Abstract
emotional voice conversion (EVC) system의 주요 goal은 주어진 speech signal의 linguistic content는 유지한 채로 emotion을 다른 style의 emotion으로 변환하는 것입니다. 대부분의 SOTA approach들은 seen spekaer-emotion combination에 대한 emotion convert를 수행합니다. 이 논문에서 저자들은 학습과 test때 neutral data만 존재하는 화자의 감정을 변환하는 것을 목표로 합니다. 이를 위해, StarGANv2-VC architecture에 dual enocder를 추가합니다. 이를 통해 speaker and emotion style embedding을 별도로 학습하게 됩니다. unseen speaker-emotion combination으로의 conversion을 수행하기 위해, 저자들은 Virtual Domain Pairing (VDP) 학습 전략을 제안합니다. 이는 real data에는 존재하지 않은 가상의 speaker-emotion pair를 생성합니다. generator와 discriminator의 adversarial training 과정에서는 제외됩니다.
Introduction
Emotional Voice Conversion (EVC)는 speech signal의 linguistic content는 수정하지 않은 채로, 특정 target emotion style로 speech signal의 emotion style을 변환하는 것을 목표로 하였습니다. 대부분의 초기 EVC 방식들은 single speaker의 emotion style을 변환하도록 speaker-dependent scenario에 초점을 맞췄었습니다. 최근 몇몇 연구들은 주어진 source speech signal에서 speaker identity와 emotion style 둘 다 변경하는 시도를 하였습니다. 이전 연구들의 대부분이 training 또는 test 과정에서 사용한 emotional data의 speaker 감정만 변환할 수 있습니다. 하지만 target speaker의 emotional voice를 모으는 것은 비용이 많이 들고 시간이 소비되며 때때로 불가능합니다. 이 논문에서 저자들은 neutral data (neutral emotion만 존재하는 data)만 존재하는 화자의 감정도 변환하는 것을 목표로 하며, 이 과정에서 다른 supporting speaker의 emotiona speech data를 사용합니다. 특히, target speaker의 emotional voice data가 train and test에서 한 번도 등장하지 않은 경우를 다루며, 저자들이 제안한 model은 emotional data를 가지고 있는 supporting speaker의 speech를 활용하여, target speaker의 감정 변환을 예측하도록 학습됩니다. 간략하게, 저자들은 dataset에 존재하는 speaker-emotion pair를 seen pair라 부르고, dataset에 존재하지 않은 speaker-emotion combination을 unseen pair라 부릅니다.
몇몇 EVC 방식들은 학습 과정에서 특정 감정을 제외하는 방식으로 unseen emotion case에 대한 문제를 다룹니다. 이전 연 구 중 하나는 emotional embedding을 생성하도록 pre-trained emotion classifier를 이용하여 unseen emotion으로의 EVC를 수행하였습니다. 하지만, 이들은 여러 seen emotion category data를 가지고 있는 화자의 unseen emotion class로의 변환만 수행하였습니다. 즉 특정 emotion을 제외한 emotion에 대해선 학습 때 사용하고, 특정 emotion으로의 변환만 수행하는 방식입니다. 하지만 저자들은 emotional recording을 가지고 있지 않은 화자의 감정도 변환하는 것을 목표로 합니다. 몇몇 연구들은 unseen speaker의 emotion voice conversion, 즉 speaker-independent EVC를 수행하기 위해 특정 화자들을 제외하였습니다. 하지만 이러한 방식들은 학습 과정에서 seen speaker의 neutral and emotion data 모두 이용합니다. 이 방식은 학습 과정에서 neutral data만 가지고 있는 speaker는 포함하지 않습니다. 그리고 이 method들은 one-to-one으로, speaker identity와 emotion identity를 동시에 변환할 순 없습니다. 하지만 저자들의 method는 many-to-many로, speaker identity와 emotion identity를 동시에 변환할 수 있습니다. TTS domain에서 몇몇 method들이 존재하지만, 저자들이 알기론 이 논문이 unseen speaker-emotion pair에 대한 EVC task를 수행한 첫 연구입니다. 이는 target speaker의 emotional data가 없고 neutral data만 있는 경우에도 적용할 수 있는 더 현실적인 연구입니다.
EVC task에서 다양한 방식들이 등장하였으며, autoencoder, GAN-based approach들이 non-parallel training data에 대한 emotional voice conversion을 수행할 수 있었습니다. 최근에 등장한 StarGANv2-VC라 불리는 StarGANv2 based approach는 다른 style로의 conversion task를 잘 수행할 수 있습니다. 하지만 original StarGANv2-VC는 seen target speaker에 대한 speaker conversion과 seen emotion style에 대한 EVC를 따로따로 수행하도록 design되어 있었습니다. 이 논문에서 저자들은 단일 mdoel로 speaker and emotion style을 동시에 변환할 수 있도록 StarGANv2-VC를 변경합니다. 이 과정에서 speaker style embedding과 emotion style embedding을 학습하도록 2가지 encoder를 사용하였습니다. 이때 dual domain source classifier를 사용하여 학습이 진행됩니다. 그다음 supporting speaker의 emotional data를 사용하는 Unseen Speaker-Emotion Pairs (EVC-USEP)를 위한 학습 전략을 고안하였습니다. 구체적으로, Virtual Domain Pairing (VDP) 학습 전략을 제안하였습니다. 이는 real data에는 존재하지 않은 speaker-emotion pair combination을 random 하게 생성하고, 이 data를 adversarial training에서는 사용하지 않는 방식입니다. fake-pair masking (FPM) strategy을 이용해 fake pair에 discriminator가 overfit 되지 않도록 보장합니다. 저자들이 제안한 방식을 EVC-USEP라 부릅니다.
저자들은 실험을 통해, EVC-USEP가 학습 과정에서 neutral speech만 가지고 있는 speaker의 감정도 성공적으로 변환할 수 있음을 보였습니다. 저자들의 key contribution은 다음과 같습니다.
- Unseen-emotion Pair (EVC-USEP) task를 수행하는 EVC를 제안하며, target speaker의 emotional data를 training and test 과정에서 존재하지 않아도 됩니다.
- 저자들은 EVC-USEP network를 제안하며, 2개 분리된 encoder와 dual domain source classifier를 통합합니다.
- 저자들은 나아가 Virtual Domain Pairing (VDP)와 fake-pair masking (FPM) training strategy을 제안하며, unseen speaker-emotion pair로 model의 일반화 성능을 향상시킵니다.
Proposed Method
EVC-USEP
저자들의 EVC-USEP architecture는 위와 같습니다. 이는 StarGANv2-VC의 확장된 version으로, speaker style domain과 emotion style domain을 따로따로 다룹니다. 이를 위해, 2가지 style encoder인 $S_{sp}, S_{em}$을 제안합니다. speaker style embedding $h_{sp} = S_{sp}(R_{sp}, y_{sp})$로 추출되고 emotion style embedding $h_{em}= S_{em}(R_{em}, y_{em})$로 추출됩니다. 여기서 $R_{sp}$는 target speaker의 reference spectrogram을 의미하고 $R_{em}$는 target emotion style의 reference spectrogram을 의미합니다. 여기서 $y_{sp}$는 speaker domain code를 나타내고, $y_{em}$는 emotion domain code를 나타냅니다. domain code는 style embedding을 얻기 위해, domain specific projection을 수행할 때 사용됩니다.
generator G는 source spectrogram X의 style을 target style로 변환합니다. 이때 style embedding $h_{f0}, h_{sp}$을 사용합니다. original StarGanv2-VC에서는 pre-trained joint detection and classification (JDC) network에서 pitch embedding $h_{f0}$를 추출하고 condition으로 사용함으로써 fundamental frequency information을 통합하여 conversion을 guide 합니다. style encoder와 함께, normal distribution에서 sample 된 latent variable로부터 speaker and emotion style embedding을 생성하기 위해 two mapping network를 학습하였습니다. 이는 StarGANv2-VC에서 single domain case에서 사용하였었습니다. 이를 통해 inference 할 때, refernece가 없더라도 target style을 지정할 수 있게 됩니다. adversarial training의 경우, 저자들은 domain-specific discriminator $D(\cdot, y)$을 사용하였습니다. 이는 sample이 real인지 converted (fake)인지 예측합니다. y는 $y_{sp}, y_{em}$의 concatenation입니다. 또한 $y_{src}, y_{trg}$은 source speaker와 target speaker를 나타냅니다. 모든 domain이 layer를 공유하며, 뒤에 domain specific linear layer만 차이가 있습니다. 추가적으로 저자들은 2가지 separate domain classifier $C_{sp}, C_{em}$를 사용합니다. $C_{sp}$는 converted sample의 source speaker domain을 구분하고 $C_{em}$는 converted sample의 emotion domain을 구분합니다.
저자들은 다음과 같은 training objective를 이용해 최적화를 진행합니다.
- Adversarial loss
generator G가 domain-specific adversarial loss를 통해 realistic mel-spectrogram을 생성하도록 학습됩니다.
- Adversarial source classifier loss
2가지 source domain classifier인 $C_{sp}, C_{em}$이 source speaker와 emotion을 classify하도록 학습됩니다. 이때 cross entropy loss $CE(\cdot)$을 이용합니다.
위 식에서 $y_{sp}, y_{em}$은 source domain code입니다. generator는 target domain code $y_{sp}, y_{em}$ 을 받아 $L_{advcls}$를 minimize하도록 학습됩니다.
- Style reconstruction loss
style reconstruction loss는 style code가 converted sample로 reconstruct 될 수 있도록 만들어줍니다.
$y_{sp}, y_{em}$은 reference domain code입니다.
- Style diversification loss
다양한 style embedding을 사용하여 생성된 sample의 다양성을 보장하기 위해, style diversification loss를 수정하여 speaker and emotion style을 incorporate 하였습니다. 동일한 domain $y_{sp}, y_{em}$에서 2가지 style embedding set $(h_{sp}, h'_{sp}), (h_{em}, h'_{em})$을 추출하였으며, 서로 다른 style embedding combination을 이용해 생성된 sample의 L1 distance를 maximize 하였습니다.
- $F_0$ consistency loss
$F_0$ consistent converted voice를 생성하기 위해, $F_0$ consistent loss를 사용하였습니다.
$\hat{F}(X)$는 input mel-spectrogram에서 normalized $F_0$ value를 만듭니다.
- Norm consistent loss
converted spectrum에서 speech/silence interval을 보존하기 위해 norm consistency loss ($L_{norm}$)을 사용합니다.
위 식에서 $||X_{\cdot,t}||$은 total T frame으로 구성된 mel spectrogram X의 t번째 absolute column sum의 norm을 의미합니다. 저자들은 $L_{F0}, L_{norm}$에 annealing 하는 것을 제안합니다. speech consistency loss, cycle consistency loss와 같은 다른 loss들은 StarGANv2-VC와 동일하게 사용하였습니다. 최종 objective는 위 loss들의 weighted sum이 됩니다.
Virtual Domain Pairing (VDP)
inference 할 때, source speaker voice의 emotion style을 target emotion의 emotion style embedding을 사용하여 변환하는 것을 목표로 합니다. 하지만 target speaker의 emotional data는 사용하지 못하고 supporting speaker의 emotional data만 사용할 수 있기 때문에, model을 training data에 존재하는 speaker-emotion pair로 학습을 진행한다면 target spekaer의 unseen emotion에는 잘 일반화되지 않습니다. 저자들이 제안한 EVC-USEP architecture는 training data에 존재하지 않는 speaker-emotion pair를 가상으로 포함할 수 있도록 설계되어 있습니다. style embedding을 sampling 할 때, target speaker domain $y_{sp}$와 emotion domain $y_{em}$을 독립적으로 sample 하고 style encoder를 사용하거나 mapping network를 사용하여 style embedding을 계산합니다. 이를 통해 supporting speaker와 emotional reference를 pairing 함으로써 neutral data만 가지고 있는 target speaker의 virtual emotional reference를 생성할 수 있게 됩니다. 저자들은 이러한 sampling 전략을 Virtual Domain Pairing (VDP)라 부릅니다.
Fake-Pair Masking (FPM)
VDP를 이용할 때, discriminator는 unseen speaker-emotion pair에 대해 항상 fake class를 예측하도록 학습됩니다. 그러므로 generated sample이 진짜 같이 들린다면, discriminator는 collapse될 것이고, seen pair처럼 들리는 voice를 생성하여 discriminator를 속이도록 generator가 학습될 수 있습니다. 이 경우, unseen speaker-emotion pair에 대한 conversion 성능이 저하되게 되며, 원하지 않은 speaker conversion이 발생되게 될 수 있습니다. 이러한 문제를 완화하기 위해, 저자들은 FPM strategy를 제안합니다. unseen speaker-emotion pair를 real-fake discriminator training에는 masking 하여 discriminator가 seen speaker-emotion pair의 mel-spectrogram으로만 학습되게 됩니다. source classifier의 목표는 real or fake pair에 상관없이 source domain을 예측하는 것이 목표입니다. 그러므로 domain classifier는 unseen pair의 emotion and speaker identity를 판별만 합니다. 그러므로 fake pair에 영향을 덜 받으며 위에서 언급한 문제에 대해서 자유롭습니다.
Annealing strategy
$F_0$ consistency loss와 norm consistency loss는 normalized $F_0$ value와 speech/silence interval이 emotion conversion 이후에도 동일하게 만들어 줍니다. 하지만 $F_0$와 speech/silence region은 emotion dependent하다고 생각하며, emotion conversion 과정에서 변화해야 한다고 생각한다고 합니다. 따라서 저자들은 loss annealing strategy를 사용하였습니다. EVC-USEP model을 학습하면서 각 epoch마다 선형적으로 해당 loss들의 weight를 줄여나가는 전략입니다.
Experiments
Baseline Model and Ablation Study
저자들이 알기론, 이 연구가 neutral emotion data만 가지고 있는 speaker의 unseen speaker-emotion pair에 대한 EVC task를 수행하는 첫 case라고 합니다. 기존 연구에 따르면, VAW-GAN based EVC가 unseen speaker case를 다뤘습니다. 그러므로, 저자들의 baseline으로 VAW-GAN based EVC model을 사용하였습니다. VAW-GAN based EVC model은 emotion만 변경할 수 있다는 한계가 있는 반면에, 저자들의 model은 emotion 뿐만 아니라 speaker identity도 변경할 수 있습니다. 저자들은 emotion과 speaker 둘 다 변경하는 더 challenging 한 task에서 model을 평가하며, VAW-GAN은 source speaker와 target speaker를 동일하게 설정하여 실험을 진행하였습니다. baseline model과의 추가적인 비교를 위해, 저자들은 여러 ablation study를 진행하였습니다. VDP, FPM strategy, annealing strategy에 대한 ablation study를 진행하였습니다.
Subjective Evaluation & Objective Evaluation
저자들이 제안한 EVC-USEP가 뛰어난 subjective quality를 보여줍니다. 또한, VDP 및 FPM strategy가 neutral speech만 존재하는 화자의 감정을 변환하는데 중요한 역할을 수행한다는 것을 입증하였습니다. 그리고 $L_{F0}, L_{norm}$에 대한 annealing을 수행한 것이 성능 향상에 도움을 준다는 것도 알 수 있습니다.
Conclusion
저자들은 neutral data만 가지고 있는 target speaker의 emotion을 변환시키는 task를 수행하는 EVC-USEP architecture를 제안합니다. 저자들은 Virtual Domain Pairing과 FPM strategy를 사용하여 unseen speaker-emotion pair task에 대한 emotional voice conversion 성능을 크게 향상시켰습니다.