https://arxiv.org/abs/2306.12991
Speech Emotion Diarization: Which Emotion Appears When?
Speech Emotion Recognition (SER) typically relies on utterance-level solutions. However, emotions conveyed through speech should be considered as discrete speech events with definite temporal boundaries, rather than attributes of the entire utterance. To r
arxiv.org
해당 논문을 보고 작성했습니다.
Abstract
speech emotion recognition (SER)은 일반적으로 utterance-level solution을 사용합니다. 하지만 음성을 통한 감정 전달은 발화 전체의 속성이 아니라, 명확한 시간적 boundary를 가진 discrete speech event로 다뤄야 합니다. speech emotion의 세밀한 특성을 반영하고 다양하고 세밀한 감정 인식 method들을 하나로 통합하기 위해, 저자들은 Speech Emotion Diarization (SED)라는 새로운 task를 제안합니다. Speaker Diarization은 "누가 언제 말을 하는가?"에 대한 정답을 찾는 것이며, Speech Emotion Diarization은 "어떤 감정이 언제 등장하는가?"에 대한 정답을 찾는 것입니다. 성능을 평가하고 common benchmark를 구성하기 위해, 저자들은 Zaion Emotion Dataset (ZED)를 제안합니다. 이는 real-life에서 녹음된 non-acted emotion speech를 포함하며, 발화 내 감정 segment의 annotation boundary를 가지고 있습니다. 저자들은 baseline을 제안합니다.
Introduction
speech emotion recognition은 복잡한 task로 여겨집니다. speech emotion은 주관적이고 복잡하고 시간적으로 세밀한 특성을 가지며, 효과적인 feature representation을 찾기 어렵다는 2가지 주요 문제 때문에 복잡한 task로 여겨집니다. 이 논문에서는 emotional feature representation에 대한 연구를 진행하는 것이 아니라, speech emotion의 미세한 시간적 특성을 분석하는 것에 중점을 둡니다.
심리학 연구에 따르면, 유명한 대부분의 emotion modeling 방식들은 categorical approach와 dimensional approach로 나눌 수 있습니다. dimensional approach는 고민하는 감정이나 어색해하는 감정과 같은 복잡하고 미묘한 감정의 복잡성을 더 잘 나타낼 수 있기 때문에 많은 관심과 주목을 받았습니다. dimensional approach 기반 frame-level solution과 dataset은 감정 상태의 시간적 상호의존성을 연구하였습니다. dimensional approach와 비교했을 때, categorical approach는 annotation이 상대적으로 쉬워서 직관적이고 보편적으로 사용되었습니다. 현재까지 대부분의 연구는 utterance-level에서 speech emotion recognition을 수행했으며, 감정 dataset도 utterance level로 구축되었습니다.
이 논문에서는 categorical modeling approach를 사용합니다. 기존 연구들은 utterance 전체의 감정을 분류하는 것에 초점을 맞췄지만, 저자들이 제안하는 SED는 각 감정의 정확한 발생 시간과 해당 감정을 동시에 예측하는 것을 목표로 합니다.

standard utterance-level Speech Emotion Recognition과 제안한 Speech Emotion Diarization과의 차이는 위와 같이 나타낼 수 있습니다. Diarization Error Rate (DER)에서 영감을 받아, 저자들은 Emotion Diarization Error Rate (EDER)을 정의하고, 이를 통해 proposed SED task를 평가합니다. 또한 저자들은 Zaion Emotion Dataset (ZED)라는 fine-grained emotion dataset을 제안합니다. ZED datsaet은 각 utterance마다 annotated boundary가 있을 뿐만 아니라 discrete categorical label을 포함합니다.
저자들의 contribution을 요약하자면 다음과 같습니다.
- Speech Emotion Diarization task를 제안합니다. 뿐만 아니라 다양한 frame-level method를 diarization objective로 통합할 수 있는 명확하고 잘 정의된 benchmark를 제공합니다.
- EDER이라는 새로운 평가 metric를 제안합니다. 이는 emotion classification quality와 emotion boundary detection accuracy를 평가합니다.
- Zaion Emotion Dataset을 제안합니다. 이는 high-quality, manually-annotated, fine-grained emotion dataset입니다. 이 dataset은 non-acted in-the-wild emotion을 포함합니다.
- code와 pre-trained model을 open 했습니다.
Speech Emotion Diarization
Speech Emotion Diarization task는 spoken utterance를 input으로 받고, pre-defined emotion cadidate set의 존재 여부를 식별하고 해당 감정이 나타나는 시간 구간을 결정하는 것을 목표로 합니다.
Speech Emotion Diarization Pipeline

Speech Emotion Diarization의 pipeline은 위와 같으며, front-end processing, frame-wise classification, post-processing이라는 3가지 주요 module로 구성됩니다. front-end processing module은 speech enhancement, dereverberation, source separation, speech segmentation과 같은 pre-processing technique을 통합한 것이며, 이를 이용해 speech recording의 quality를 향상시킵니다. 뿐만 아니라 frame-wise classification module에 utterance를 feed 하기 전에 적절한 길이로 조절합니다. frame-wise classifier는 frame-by-frame으로 emotional content를 예측하며, 전체 input utterance를 단일 감정으로 분류하는 방식보다 더 세밀한 시간적 분석이 가능합니다. frame-wise emotion classification model은 다음과 같습니다.

이는 linear classifier와 emotional encoder로 구성됩니다. 한 감정은 아주 적은 수의 frame에서만 등장하고, 다른 감정은 그것보다 긴 기간동안 등장할 수도 있으며, 이러한 다양한 감정의 duration 때문에 fine-grained speech emotion recognition이 어렵습니다. variable sized- context를 처리할 수 있도록, 저자들은 emotional encoder 안에 transformer block을 넣어 standard self-attention mechanism을 사용하였습니다. 구체적으로 저자들은 speech emotion recognition을 포함한 다양한 task에서 뛰어난 성능을 보여준 self-supervised model (e.g., Wav2Vec 2.0, HuBERT, WavLM)을 이용하였습니다.
마지막으로 post-processing technique을 이용해 예측 성능을 향상시켰습니다. prior knowledge 기반 filter (e.g., number/position of emotion appearance), 또는 threshold를 이용하였습니다.
Evaluation Metrics
Emotion Diarization Error Rate (EDER)은 frame-level method를 평가하기 위해 design 되었습니다. Diarization Error Rate (DER)에 영감을 받아 EDER을 design 하였으며, 다음과 같이 정의됩니다.

그림으로 나타내면 다음과 같습니다.

EDER은 False Alarm (FA), Missed Emotion (ME), Confusion (CF), Overlap (OL)으로 구성됩니다.
- False Alarm (FA): non-emotional segment을 emotion이라고 잘못 예측한 segment들의 duration
- Missed Emotion (ME): emotional segment를 non-emotion이라고 잘못 예측한 segment들의 duration
- Confusion (CF): emotional segment를 다른 감정으로 잘못 예측한 segment들의 duration
- Overlap (OL): 감정이 overlap되지 않은 segment에서 잘못된 감정이 추가적으로 중첩되었다고 예측된 segment의 duration
frame length의 차이로 인해 frame-level standard benchmark를 만드는 것은 어렵습니다. 하지만 예측한 emotional 구간의 endpoint와 실제 emotion 구간의 endpoint를 비교하는 방식으로 EDER은 frame length 문제를 해결했습니다. EDER은 frame-level method가 높은 정확도를 달성하는 데 도움을 줍니다.
Experiments
Training Set
저자들은 IEMOCAP, RAVDESS, Emov-DB, ESD, JL-Corpus를 이용했으며, 그중 happy, sad, angry, neutral 감정들만 선택해 사용했습니다. 그 이후 Voice Activity Detection (VAD) module을 이용해 0.2초보다 길게 침묵하는 audio file들은 제외시켰습니다.
Experimental Setup
pre-trained Wav2vec 2.0, HuBERT, WavLM들의 large version을 사용하여 emotional encoder를 구축했습니다. 이 self-supervised model들은 CNN feature encoder를 사용하고 동일한 receptive field, stride size를 가지고 있습니다. receptive field size가 작지만, emotion encoder 안에 있는 transformer block이 self-attention mechanism 덕분에 long-range dependency와 contextual emotional information을 잘 capture 할 수 있었습니다. self-supervised model에서 구한 각 encoded speech unit을 4가지 감정 class 중 1개로 분류하는 classifier에 넣었으며, single fulyl connected layer를 사용합니다.
CNN-based feature encoder는 frozen하고 transformer block을 downstream frame-wise classification task에 맞춰 fine-tune 하였습니다. self-supervised encoder와 downstream classifier에 서로 다른 scheduler를 적용해 서로 다른 learning rate를 적용했습니다.
Results

저자들이 제안한 baseline model 성능은 위와 같습니다. 5개 seed에 맞춰 나눈 train-validation set으로 실험을 진행하고 평균을 구한 결과입니다. WavLM-large가 가장 좋은 성능을 달성했습니다.

WavLM-large를 가지고 실험을 진행한 결과는 위와 같습니다. 감정이 유지되는 경우엔 높은 정확도를 보이는 것을 볼 수 있습니다.
Conclusion
이 논문에서 저자들은 fine-grained speech emtoion recognition에 대한 연구를 진행했으며 temporal boundary에 따른 감정을 예측하는 Speech Emotion Diarization task를 제안합니다. 그리고 Zaion Emotion Dataset이라는 fine grained emotion dataset을 제안합니다.