https://arxiv.org/abs/2407.18541
Towards Improving NAM-to-Speech Synthesis Intelligibility using Self-Supervised Speech Models
We propose a novel approach to significantly improve the intelligibility in the Non-Audible Murmur (NAM)-to-speech conversion task, leveraging self-supervision and sequence-to-sequence (Seq2Seq) learning techniques. Unlike conventional methods that explici
arxiv.org
해당 논문을 보고 작성했습니다.
Abstract
저자들은 Non-Audible Murmur (NAM)-to-speech conversion task에서의 intelligibility를 크게 향상시키는 새로운 방식을 제안합니다. 이는 self-supervision과 Seq2Seq technique을 사용합니다. record ground-truth speech를 필요로 하는 이전 방식들과 다르게, 저자들의 method는 ground-truth speech를 simulate 하기 위해 speech-to-speech 합성 및 self-supervision을 사용합니다. simulated speech를 이용함에도 불구하고, 저자들의 method는 현재 SOTA보다 Mel-Cepstral Distortion (MCD) metric에서 29.08% 향상된 결과를 보여줍니다.
Introduction
구두 의사소통은 매우 효율적인 사회적 상호작용 형태입니다. 폐에서 공기가 배출되면서 성대의 진동이 발생하고 혀, 볼, 입술의 표현들로 인해 이 airflow가 더욱 다듬어지며 speech를 만듭니다. 하지만 기도가 완전히 또는 부분적으로 막히는 성도 병리의 경우, 일반적인 발화 과정이 방해받습니다. 나아가 휴대전화로 사적인 대화를 하거나 의료 시설이나 조용한 공공장소에서 대화할 때는 일반적으로 목소리를 줄여 대화를 합니다. 그러므로 음성 및 신호 처리 기술을 발전시켜 이를 완화할 수 있는 무음 음성 인터페이스 (Silent Speech Interface, SSI)에 대한 연구가 중요합니다.
SSI는 acoustic signal이 없는 독특한 형태의 구두 의사소통을 나타냅니다. 즉 소리를 내지 않으면서 조용히 표현하는 것을 의미합니다. SSI 기술은 무음 articulatory 움직임 또는 목 주변의 기류 움직임으로 인한 진동을 분석하여 발화 내용을 이해합니다. SSI에는 Lip reading, Ultrasound Tongue Imaging (UTI), Real-Time Magnetic Resonance Imaging (RT-MRI), Electromagnetic Articulography (EMA), Permanent Magnet Articulography (PMA), Electrophysiology, Electrolarynx (EL), Electro Optical Palatography와 같은 기술들이 존재합니다. 하지만 대부분의 기술들은 non-real-time 하고 침습적이라는 특성이 존재하기 때문에 일상적인 사용에는 어려움을 겪고 있습니다. 예를 들어 UTI는 초음파를 사용해 혀의 움직임을 capture 하고, rtMRI는 MRI를 이용해 상부 기도의 midsagittal plane을 기록하며, EMA는 입술, 혀와 같은 articulator의 진동을 측정합니다. 이러한 기술들은 vibrator, MRI 장비 소음뿐만 아니라 시간이 오래 걸린다는 한계가 존재합니다.
약 20년 전, 귀 뒤에서 살을 통해 전도되는 NAM 진동을 capture하는 특수 마이크를 사용하는 비침습적 SSI 기술을 만들었습니다. 이 연구는 NAM vibration을 기반으로 speech recognition의 가능성을 보여주었습니다. 약 10년 후, CSTR NAM TIMIT Plus corpus라는 dataset을 공개했는데, 이는 NAM과 그에 상응하는 whisper speech로 구성된 영어 NAM dataset입니다. 이를 통해 NAM 진동을 일반적인 speech로 변환하는 여러 노력들이 이루어졌습니다. 하지만 이러한 방식들을 방해하는 몇 가지 한계가 존재합니다.
- 이 method들은 explicitly record ground-truth speech를 필요로 합니다.
- 합성된 speech의 intelligibility와 quality가 상당히 낮습니다.
- NAM vibration으로부터 Mel-based feature를 예측하는 방식을 사용하므로, 관심 있는 새로운 목소리로 음성을 합성하는 방법의 능력이 제한됩니다.
- database의 크기가 제한적이기 때문에, 현재 연구들은 최신 deep learning tecnnique의 성능을 완벽하게 사용하지 못합니다.
이러한 어려움들은 fundamental frequency가 없고 high-frequency component의 감쇠와 같은 NAM vibration의 기존 문제를 더욱 악화시킵니다. 이 연구에서 저자들은 Self-Supervised Learning (SSL) method를 사용하여 NAM signal로부터 speech를 합성하는 새로운 방식을 제안합니다. 저자들의 contribution은 다음과 같습니다.
- 다른 연구들과 다르게, 저자들의 framework는 studio-recorded ground-truth speech가 명시적으로 필요하지 않습니다.
- 합성된 speech의 intelligbility를 향상시키기 위해, 저자들은 NAM voice로 음성을 simulation 하는 새로운 data augmentation 기술을 제안하고 Dynamic Time Warping (DTW) method를 사용해 이에 대응하는 speech와 alignment 하는 기술을 제안합니다.
- 저자들은 Seq2Seq learning algorithm을 사용해 NAM과 ground-truth speech representation 사이 cross-modaltiy learning을 수행합니다. 이를 통해 효과적으로 speech content를 복사할 수 있습니다.
Method
위 그림은 제안한 method의 전반적인 모습을 보여주며, 3가지 key stage로 구성됩니다: 이용 가능한 whisper data를 활용한 ground-truth speech simulation, 추가적인 NAM voice sample을 생성하는 data augmentation, inference 할 때 새로운 voice로 speech를 합성하기 위해 speech vocoder와 함께 학습되는 Seq2Seq network로 구성됩니다.
Speech Encoder
최근 SOTA NAM-to-speech conversion 기술은 raw audio를 encoding 하기 위해 Mel-cepstral feature를 사용합니다. 하지만 이 feature는 주어진 audio로부터 speaker와 ambient noise를 포함한 모든 aspect를 encapsule합니다. 그래서 학습할 때 network는 의도된 speech content 뿐만 아니라 추가적인 speaker and ambient noise information도 reconstruct 해야 합니다. 이는 학습 과정을 복잡하게 만들고 변환된 speech의 intelligibility와 새로운 voice로 speech를 합성할 때 부정적인 영향을 미칩니다.
최근 널리 사용되는 Base HuBERT와 같은 SSL model들은 speaker information과 background noise information을 제외하면서 세부적인 speech representation을 capture하는 데 유망한 결과를 보여줍니다. 이 network는 많은 양의 unlabeled speech data를 대상으로 BERT-like masked prediction loss를 사용합니다. k-means algorithm은 classification loss를 구하기 위해 pseudo label을 사용해 cluster ID를 나타내면서 feature들을 clustering 합니다. 이 pseudo-label은 self-supervised representation을 반복적으로 refine 합니다. final speech representation을 위해 cluster ID를 discrete unit으로 추출하는 대신, 저자들은 Seq2Seq mapping network를 학습하기 위해 768차원 embedding을 사용하였습니다. 이는 합성을 수행할 때 speech content를 더 잘 보존할 수 있도록 만들어 줍니다. 즉 clustering을 수행하지 않고 BERT의 768차원 feature를 그대로 사용합니다.
Ground-truth speech simulation
최신 NAM-to-speech conversion model은 학습을 할 때 manually recording studio-quality speech data에 의존합니다. 저자들의 방식은 기존의 manual recording method와 다르게 CSTR NAM TIMIT Plus corpus에서 제공되는 whisper audio를 활용하여 ground-truth speech를 simulation 합니다. 위 그림의 (A)가 simulation step을 보여줍니다. 먼저, LJSpeech에 존재하는 utterance로부터 양자화된 HuBERT representation을 얻은 후, 다시 speech를 합성할 수 있도록 vocoder를 학습시킵니다. 그 다음 whisper audio로부터 양자화된 HuBERT representation을 얻은 다음 trained vocoder에 feed 하여 LJSpeech speaking style을 가진 speech를 합성합니다. 이 방식은 속삭이는 style의 speech의 voice를 normal speech로 복제할 수 있으며, method를 사용하여 시간 정렬을 수행합니다. 여기서 한 quantized unit는 1/50초마다 구해집니다. 저자들은 NAM audio 대신 whisper audio를 사용하여 ground-truth speech를 simulate 하는데, whisper audio는 fundamental frequency가 존재하며 더 낮은 error rate를 보여줍니다.
Data augmentation
NAM-to-speech conversion에서 사용할 수 있는 corpus는 40분에 불과하기 때문에 transformer-based Seq2Seq framework를 학습하는 것에 상당한 어려움이 존재합니다. 최근 연구에서는 LPC-based audio conversion tool을 사용하여 speech data를 whisper voice로 변환하는 방식을 제안했습니다. 하지만 NAM voice를 augmentation 하는 tool이나 기술은 존재하지 않습니다. 이러한 문제를 해결하기 위해, 위 그림의 (B)처럼 저자들은 NAM corpus를 augmentation 하는 speech-to-speech synthesis technique을 제안합니다. speech simulation과 유사하게 저자들은 encoder-decoder speech cloning architecture를 사용합니다. 먼저 NAM vibration으로부터 quantized HuBERT representation을 얻은 후 NAM voice speech를 재합성하도록 speech vocoder를 학습합니다. 그다음 저자들은 LJSpeech dataset에 존재하는 utterance로부터 HuBERT representation을 얻은 후 학습된 speech vocoder에 넣어 NAM voice speaking style인 speech를 합성합니다. LJSpeech dataset에서 얻어진 HuBERT에서 speech content만 존재하고 speaker and ambient noise characteristic은 존재하지 않기 때문에, 저자들의 data augmentation technique이 큰 이점을 제공합니다. LJSpeech dataset의 content를 유지하는 NAM corpus를 합성할 수 있게 되며, 약 24시간 NAM data를 얻었습니다. 저자들은 이 augmented NAM dataset을 LJNAM이라 부르며 대응하는 speech data는 LJSpeech입니다.
Time alignment of representations
simulated ground-truth speech는 ground-truth data simulation technique 덕분에 time align이 이루어집니다. 하지만 augmented LJJNAM dataset과 그에 대응한 LJSpeech data는 time-align이 되어 있지 않습니다. input과 ground-truth 사이 time alignment는 Non-Autoregressive (NAR) Seq2Seq architecture를 학습시키기 위해서 필수적입니다. 이를 위해, 저자들은 FastDTW를 사용합니다. 이는 다양한 길이의 representation을 정렬하는 DTW technique입니다. DTW matching algorithm은 두 signal에서 추출된 SSL embedding을 이용합니다. 두 sequence의 embedding 모두 0번째 frame에서 시작한다는 가정에서 출발하며 더 짧은 sequence의 frame이 더 긴 sequence에서 가장 일치하는 frame을 찾아냅니다. 이 method는 augmented LJNAM과 LJSpeech utterance가 align 되도록 만들어주며, 두 modality 간 Seq2Seq mapping을 학습하는 데 중요한 부분입니다.
Seq2Seq network
저자들은 위 그림의 (C)처럼 NAR transformer-based Seq2Seq network를 이용하여 두 latent space 사이 mapping을 학습합니다. 저자들의 network는 NAM과 LJNAM sample에서 SSL embedding을 얻어 input으로 사용합니다. simulated ground-truth speech와 LJSpeech data는 target ground-truth representation으로 사용됩니다. 저자들은 autoregressive model 대신 NAR model을 사용했는데, NAR model이 모든 output token을 동시에 생성할 수 있기 때문에 real-time application에 적합해서 택했다고 합니다.
각각 6 layer로 구성된 encoder, decoder들을 사용하며, 각 layer들은 feed-forward transformer blocks with two multi-head self-attention mechanism and 1-dimensional convolution으로 구성됩니다. encoder는 NAM embedding을 고정된 차원의 vector sequence로 처리하고, decoder는 ground-truth speech embedding을 예측합니다. 학습의 경우, 저자들은 batch size로 16을 선택했으며, 최대 학습 step을 20,000으로 선택했습니다. HuBERT model은 50Hz frame rate로 speech를 embedding으로 encode 합니다. model은 decoded speech embedding과 ground-truth speech embedding 사이 MSE loss를 사용하여 학습됩니다. 식으로 나타내면 다음과 같습니다.
$$L_{MSE} = \frac{1}{T}\sum_{i=1}^{T}||S_{ssl_i} - \hat{S}_{ssl_i}||^2$$
식에서 $S_{ssl}$은 ground-truth speech embedding을 나타내고 $\hat{S}_{ssl}$은 decoded speech embedding을 나타내고 $T$는 time step을 나타냅니다.
저자들은 transformer encoder layer 뒤에 fully connected linear layer을 추가해 Connectionist Temporal Classification (CTC) token을 예측하는 model의 성능을 향상시켰습니다. ground-truth text sequence는 Wav2Vec2 tokenizer를 시용해 tokenize 됩니다. $N_{ssl}$은 input NAM embedding을 나타내고 $Enc_{ssl}$는 transformer encoder의 output을 나타냅니다. 만약 $C$가 ground-truth text의 대응하는 character labeld을 나타낸다면, negative log-likelihood를 minimize 하기 위한 objective는 다음과 같습니다.
$$L_{CTC} := -log{P_{CTC}(C|E_{nc_{ssl}}})$$
MSE와 CTC loss의 weighted sum을 계산함으로써 최종 objective function은 다음과 같이 정의됩니다.
$$L_{Tot} = \alpha_{CTC}*L_{CTC} + \alpha_{MSE}*L_{MSE}$$
여기서 $\alpha_{CTC}$와 $\alpha_{MSE}$가 hyperparameter로, 두 loss 사이 영향력을 조절합니다. 저자들은 각각 0.001, 1로 설정하였습니다.
Speech vocoder
speech vocoder는 Seq2Seq network로부터 예측된 speech embedding을 input으로 받아 speech를 합성합니다. 저자들은 HiFiGAN-v2를 사용해 SSL embedding으로부터 speech를 합성했습니다. generator에서 transposed convolution이 ground-truth speech의 SSL embedding을 upsample 하고, residual block이 receptive field를 확장하는 데 사용되어 최종 signal을 합성하게 됩니다. discriminator는 합성된 signal과 original signal를 구분하며, multi-period and multi-scale network를 사용해 temporal pattern, detail, global structure를 capture 합니다.
Dataset
저자들은 CSTR NAM TIMIT Plus corpus를 이용해 평가를 진행했습니다. 이 dataset은 NAM vibration과 그에 대응하는 whisper audio와 text로 구성되어 있습니다. studio setup에서 여성 speaker가 412개 문장을 발화했습니다. 총 약 40분 정도의 발화이며, sampling frequency는 16,000Hz입니다. 13%는 test set으로 사용했으며, 나머지와 augmented LJNAM dataset을 이용해 학습을 진행했습니다.
Results and discussion
저자들은 SOTA method와 비교를 진행합니다. 그리고 CTC loss와 CSTR NAM TIMIT Plus corpus에 data augmentation을 적용한 것이 합성된 speech의 intelligibility를 향상시키는 효과를 보여줍니다. MCD (Mel Cepstral Distortion)만 보여주는 이전 연구들과 다르게, 저자들은 합성된 speech의 intelligibility를 정량적으로 측정하는 error rate도 보여줍니다. 저자들은 Whisper-ASR을 이용해 합성된 speech의 transcription을 만들어 WER와 CER를 측정했습니다. simulated ground-truth speech는 CER이 12.43%, WER이 24.73%를 기록했습니다.
Recognition performance with no data augmentation
위 표는 data augmentation을 적용하지 않은 저자들의 method의 정량적 평가 결과입니다. MSpec-Net에서 제공한 studio-recorded ground-truth speech가 없기 때문에, 해당 model을 학습할 수 없어서 WER, CER을 측정하지 못했다고 합니다. 위 SOTA 연구들은 MCD metric만 측정하였습니다. CTC loss를 Seq2Seeq network에 적용하는 것이 모든 3가지 metric에서 성능 향상을 가져다주었습니다. 이는 ground-truth text를 사용하는 것이 speech representation이 크게 향상된다는 것을 나타냅니다. 특히 CTC loss를 사용하는 저자들의 method가 MCD를 상당히 감소시켰습니다. MSpec-Net은 studio-recorded ground-truth speech를 사용하여 MCD metric을 계산했지만, 저자들의 method는 simulated ground-truth speech를 사용했다는 점에 주목해야 합니다.
Recognition performance with data augmentation
위 표는 augment를 적용한 저자들의 method를 정량적 평가를 진행한 결과입니다. data augmentation을 하였어도 MCD에서는 성능 향상을 얻지 못했지만, 합성된 speech의 intelligibility는 크게 향상된 결과를 얻었습니다. LJNAM과 CTC loss를 적용함으로써, 저자들은 WER와 CER에서 성능 향상을 얻어냈습니다. 제안된 data augment technique을 사용해 simulated data를 corpus에 추가하면 intelligibilty가 향상됨을 보여줍니다.
Qualitative evaluation
위 그림은 original NAM singal과 합성된 speech의 Mel spectrogram을 비교한 모습입니다. DiscoGAN은 일관성 있는 speech를 만들기 어렵고 MSpec-Net은 몇몇 intelligible content을 capture 하지만 original NAM signal에 존재하는 lower-frequency component를 보존하는데 실패하고 naturalness가 부족한 모습을 보여줍니다. 반면에 저자들의 method는 lower-frequency formant가 향상되고 정확하게 higher-frequency formant를 예측하는 모습을 보여줍니다. 저자들의 setup에서 새로운 voice를 이용해 speech를 합성할 수 있으며, 이는 기존 method들로는 불가능했습니다.
Conclusion
이 논문은 NAM-to-speech conversion task를 수행하는 새로운 framework를 제안합니다. record studio-quality ground-truth speech에 의존하는 대신, 저자들은 ground-truth speech를 simulate 하기 위해 self-supervision and speech-to-speech synthesis 기술을 사용했습니다. 저자들이 제안한 method는 SOTA보다 뛰어난 성능을 달성했습니다.