spectrum, spectrogram, Mel-spectrogram, MFCC
음성에 들어있는 정보(발음의 종류, 성별, 음색, 높이 등)는 음성 신호 자체에서 쉽사리 얻어낼 수 없고, 수학적인 신호 처리를 거쳐야만 추출할 수 있습니다. 그중 대표적인 한 가지로, 음성을 주파수(frequency, Hz)라는 또 다른 축으로 관측하는 방법이 있습니다. frequency란, 신호가 1초에 몇 번 진동했는지를 나타내는 수치이며, 소리는 빠르게 진동할수록, 즉 주파수가 높을수록 음이 높게 들립니다. 주파수가 낮다면 저음이 들리게 됩니다. 자연에서 들을 수 있는 모든 소리는 다양한 주파수 성분들의 합으로 이루어져 있습니다. 그래서 Fourier transform을 이용해 소리를 다양한 주파수 성분들로 분해합니다. Fourier transform이라는 함수를 사용하면 특정 시간 길이의 음성 ..
연구실 공부
2024. 2. 27.