Speaker Diarization
Speaker Diarization(화자 분리)에 대해 간단히 알아보겠습니다. 여러 명의 speaker가 말하고 있는 audio가 있다고 생각하겠습니다. 이때, audio file에서 '누가 언제 말했는지'의 문제를 다루는 것이 speaker diarization입니다. raw waveform이나 mel-spectrogram처럼 변환된 signal을 input으로 받아 '누가 언제 말했는지(who speak when)'에 대한 timestamp를 출력하는 방식입니다. speaker diarization은 3가지 순서로 진행됩니다. VAD & Segmentation VAD(Voice Activity Detection)은 음성 활동 감지입니다. 이는 음향 이벤트 감지(Sound Event Detection)..
연구실 공부
2024. 3. 11.