본문 바로가기

연구실 공부

Speaker Diarization

728x90

Speaker Diarization(화자 분리)에 대해 간단히 알아보겠습니다.

 

여러 명의 speaker가 말하고 있는 audio가 있다고 생각하겠습니다. 이때, audio file에서 '누가 언제 말했는지'의 문제를 다루는 것이 speaker diarization입니다. raw waveform이나 mel-spectrogram처럼 변환된 signal을 input으로 받아 '누가 언제 말했는지(who speak when)'에 대한 timestamp를 출력하는 방식입니다.

 

speaker diarization은 3가지 순서로 진행됩니다.

 

  • VAD & Segmentation

VAD(Voice Activity Detection)은 음성 활동 감지입니다. 이는 음향 이벤트 감지(Sound Event Detection)의 일종으로 음성 구간을 검출합니다. 즉 음성이 없는 부분이 아니라 음성이 존재하는 구간을 검출하는 것입니다.

VAD 결과로 얻은 음성 구간에 대해 음성 분할 모델(segmentation model)은 화자의 특징을 추출하기 좋은 단위로 구간을 분할하는 model을 의미합니다.

이는 speaker-uniform segmentation과 speaker-change-point segmentation으로 나눠집니다.

speaker-uniform segmentation은 고정된 짧은 단위로 구간을 나누는 방식입니다. 짧은 구간 동안에는 화자가 변하지 않을 것이라고 가정하고 진행하는 방식입니다.

speaker-change-point segmentation은 화자 변화를 감지하는 algorithm을 사용하여 speaker가 변할 때마다 구간을 분할하는 방식입니다.

 

  • Speaker feature Extraction

음성 분할의 결과로 얻은 음성 구간들에 대해, speaker feature vector를 extract 하는 model입니다. i-vector, d-vector, x-vector, ECAPA-TDNN 등 다양한 feature extractor가 존재합니다.

동일한 speaker에 대한 feature vector들은 서로 가깝도록, 다른 speaker의 경우에는 feature vector를 멀어지도록 학습됩니다. generalized end-to-end(GE2E), angular prototypical 등 다양한 loss function을 사용할 수 있습니다.

 

  • Clustering

마지막 clustering(군집화)입니다. speaker feature vector들을 거리에 따라 speaker 별로 분류하는 model입니다.

online clustering은 순차적으로, 이전 시점까지 들어온 speaker feature vector와 speaker information에 기초하여 다음 시점의 speaker를 예측하는 방식입니다. 대표적으로 LINKS, UIS-RNN 등 존재합니다.

offline clustering은 모든 speaker feature vector들을 한꺼번에 처리하는 model입니다. 모든 시점의 음성 정보들을 전부 활용할 수 있다는 장점이 있습니다. 하지만 필요한 연산량과 메모리가 많이 필요하기 때문에, deep learning based model 대신 비지도 학습 기반의 고전적인 clustering method를 사용합니다. 대표적으로 spectral clustering, Agglomerative Hierarchical Clustering(AHC) 등이 존재합니다.

 

Speaker diarization을 평가하는 지표로 Diarization Error Rate(DER)과 Jaccard Error Rate(JER)가 있습니다.

DER은 speaker를 제대로 예측한 총 시간을 측정하여 이를 기반으로 평가하는 방식입니다.

JER은 총 시간을 측정하는 방식이 아닙니다. audio에 존재하는 전체 speaker들을 제대로 분류했는지 평가하는 방식입니다. JER의 경우는 짧은 시간 동안만 발화한 speaker에 대해서도 잘 표현하는 것도 중요합니다.