연구실 공부

[논문] GESPER: A Unified Framework for General Speech Restoration

Jeongwooyeol 2024. 12. 26. 14:51
728x90

https://ieeexplore.ieee.org/abstract/document/10095557

 

Gesper: A Unified Framework for General Speech Restoration

This paper describes the legends-tencent team’s real-time General Speech Restoration (Gesper) system submitted to the ICASSP 2023 Speech Signal Improvement (SSI) Challenge. This newly proposed system is a two-stage architecture, in which the speech resto

ieeexplore.ieee.org

해당 논문을 보고 작성했습니다.

 

Abstract

이 논문은 speech restoration을 수행한 후 speech enhancement를 수행하는 새로운 2-stage architecture를 제안합니다. 저자들은 speech restoration module로 complex spectral mapping-based GAN (CSM-GAN)을 제안합니다. noise 억제와 dereverberation을 위해, enhancement module은 fullband-wideband parallel processing을 수행합니다.

 

Introduction

화상회의, 전화 등 Real-time communication (RTC) system은 현대 개인의 생활과 업무에서 필수적인 요소가 되었습니다. 하지만 acoustic capturing, noise/reverberation corruption, network congestion 등의 영향으로 RTC system의 speech quality는 여전히 문제가 존재합니다. ICASSP 2023 SSI challenge는 RTC system에서 음성 신호 품질을 개선하는 데 중점을 두며, 복잡한 음향 조건에서 noise, coloration, discontinuity, loudness, reverberation 등의 문제를 해결하는 것을 목표로 합니다.

이 논문에서 저자들은 Gesper라 불리는 통합 general speech restoration two-stage framework를 제안합니다. 이는 SSI의복잡한 문제를 해결하기 위해 "restoration and enhancement"를 수행합니다. noise reduction method는 degraded speech signal에 과도한 suppression을 적용해 speech signal을 복원하는 데 상당한 어려움을 유발할 수 있습니다. 그래서 저자들은 먼저 CSM-GAN이라는 restoration module을 사용합니다. 이는 speech distortion restoration, narrowband bandwidth expansion (BWE) 뿐만 아니라 denoising, dereverberation을 수행하는 restoration module입니다. restoration module의 output에 residual noise component and artifact가 여전히 존재하기 때문에, 저자들은 speech signal의 quality를 더 향상시키기 위해 enhancement module을 사용합니다. 이는 fullband-wideband parallel processing을 수행하며 2번째 stage에서 사용됩니다.

 

Methodoloy

 

위 figure와 같이, 저자들이 제안하는 Gesper system은 restoration module과 enhancement module로 구성됩니다. input time-domain audio waveform에 real-time sound level adjustment를 수행한 다음, short-time Fourier transform (STFT)를 적용해 complex spectrogram을 얻습니다. complex spectrum의 실수와 허수를 two-stage architecture에 feed합니다. restoration module은 먼저 GAN을 통해 speech distortion restoration, denoising, dereverberation을 수행합니다. enhancement module은 restoration module로 생성한 상대적으로 고품질의 speech complex spectrum에 존재하는 residual noise component와 artifact를 제거합니다.

 

Restoration Module

speech 관련 분야에서 time-domain, mel-domain 등 다양한 generative model 연구들이 존재했습니다. 그럼에도 불구하고 time-domain generative model은 high-frequency representation을 잘 생성하지 못하고 mel-domain generative model은 위상 정보를 충분히 활용하지 못해 복잡한 scenario에서 적합하지 못하는 모습을 보여줍니다. 그러므로 저자들은 speech enhancement와 speech synthesis에서 이용되는 기술들을 활용한 CSM-GAN을 restoration module로 제안합니다.

CSM-GAN의 generator는 complex spectral mapping-based UNet입니다. 2 convolution-dense layers, 3 convolution layer로 구성된 encoder와 그에 대응하는 transposed convolution layer와 transposed convolution-dense layer로 구성된 decoder가 존재합니다. encoder와 decoder 사이 temporal modeling을 위한 stacked temporal convolution network block이 존재합니다. parameter 수를 줄이고 연산량을 줄이기 위해, fullband complex spectrum을 3가지 subband로 나누었으며, channel dimension에 맞춰 concatenate 하여 generator에서 처리하였습니다. discriminator의 경우, multi-resolution frequency discriminator와 multi-band discriminator을 사용해 서로 다른 subband의 large dynamic range 문제를 해결했습니다.

 

Enhancement Module

성능을 유지한 채로 연산량을 줄이기 위해, 저자들은 enhancement module에서 fullband-wideband parallel processing을 수행합니다. 구체적으로, fullband complex spectrum을 2 group feature로 나눴습니다. wideband speech의 complex spectrum과 band split을 통해 fullband information이 존재하는 32개 equivalent rectangular bandwidth (ERB) band입니다. 이후 wideband TaylorEnhancer (TaEr)를 사용해 wideband complex spectrum을 처리하고 fullband masking-based UNet (FBM UNet)을 사용해 ERB band를 처리합니다. TaEr은 좋은 wideband noise suppression 성능을 보여주고 wideband speech enhancement에 초점을 맞춥니다. FBM UNet은 fullband processing를 위한 낮은 complexity를 보입니다. band-merge operation을 통해 두 sub-network의 output을 enhanced fullband complex spectrum으로 통합합니다.

 

Experiments

Evaluation on the SSI Challenge Blind Test Set

 

실험 결과는 위와 같습니다. Gesper가 noisy signal에 비해 모든 metric에서 뛰어난 성능을 보여줍니다. noise, coloration, discontinuity, loudness, reverberation 등 다양한 품질 저하 요인들을 효과적으로 완화했습니다.

 

Conclusion

이 논문에서는 two-stage framework인 Gesper를 제안합니다. 이는 noise, coloration, discontiunity, loudness, reverberation과 같은 문제들을 효과적으로 해결할 수 있습니다. 이 system은 ICASSP 2023 SSI Challenge에서 track1, 2에서 가장 좋은 real-time system으로 등록되었습니다.

 

728x90