MFCC를 잘 정리한 국내 논문 자료:

https://www.google.co.kr/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&ved=0CCUQFjAA&url=http%3A%2F%2Fice.inha.ac.kr%2Fxe%2F%3Fmodule%3Dfile%26act%3DprocFileDownload%26file_srl%3D69048%26sid%3Dc118d180ef2c32bd4d79c4212c05e598&ei=I6Y3VabyNcvj8AW174C4Dg&usg=AFQjCNFnnKzNL0B8EIMwQDIynmsJPqQIRg&sig2=0UCoso-74wwKgyVMHjmU5A&cad=rjt

소리 녹음 : 그냥 공기가 움직이는것은 소리가 아니다. 소리는 공기가 주기적으로 진동해야만이 소리란 정보가된다. 즉 공기를 매질로하는 파동정보가 바로 소리이다. 이때 파동의 진동수가 작으면 적은에너지를가진 저음이고, 크면 많은에너지를 가진 고음이다. 즉 웨이브파일은 마이크의 떨림판을 소리가 떨리게한 길이를 전기적으로 변환해서 +-로 기록한 소리파동에대한 정보이다. 스피커도 마찬가지원리이고. 즉 웨이브파일은 소리의 진폭을 일정시간단위로 기록한 데이터이다.

Convolution : 타임 윈도윙 50%도 컨벌루션이라고 하는 듯


Wav 파일 : 소리 파동의 진폭을 일정한 시간 간격으로 기록한 파일. 이러한 저장 방식을 PCM(Pulse-Code Modulation) 이라고 부름.

Image result for pcmBasic Elements of PCM System

MFCC가 추출되는 과정 : MP3 파일을 wav 파일로 변환 -> wav 파일 -> 일련의 처리과정을 거침 -> MFCC features

Spectrum : 임의의 연속적인 변수 2개를 x,y 축으로 놓고 그린 모든 종류의 그래프를 칭하는 대명사격인 단어이다.

(정의가 명확히 존재하지 않으며, 보통은 파동과 관련된 그래프를 의미한다.)
x축이 주파수, y축이 power(제곱) : 파워 스펙트럼
x축이 파장, y축이 엽록소의 빛 흡수율 : 흡수 스펙트럼
x축이 질량, y축이 밀도 : Mass spectrum 
x축이 시간, y축이 진동수 : Frequency spectrum (=Spectrogram 이라고도 한다.)

http://en.wikipedia.org/wiki/Spectrum
http://www.scienceall.com/%EC%8A%A4%ED%8E%99%ED%8A%B8%EB%9F%BCspectrum/





Spectral density 
어떤 파동(신호)의 각 주파수마다 가진 power 값.
즉, 해석하면 파동(신호)의 각 주파수 당 에너지를 전달하는 속도를 그래프로 그린 것이다. (단순히 각 주파수가 가진 에너지는 의미가 없다. 에너지가 전달되지 않으면 소리가 들리지도 않고, 아무런 현상도 일어나지 않기 때문)

지진이 발생하여 10초간 지진파가 일어나면, 지진 에너지가 땅이나 건물로 전달되어 진다. 그러나 이 때 모든 주파수에서 동일한 만큼의 에너지가 전달되는 것이 아니다. 즉 파동(신호)의 각 주파수대역 마다 에너지가 전달되는 속도가 다른 것이다.(10초간 전달되는 에너지의 양이 다르니까, 당연히 전달되는 속도도 다르다. 만약 에너지의 크기는 매우 크더라도, 에너지의 전달 속도가 0이라면 아무런 일도 하지 않는 것이다. 즉 아무런 변화를 일으키지 않고 파동이 지나가는 것이 된다.) 이렇게 주파수마다 다르게 전달되는 에너지를 모두 합한 것이 그 파동(신호)이 전달한 에너지의 총량이 된다.

이것을 그래프로 그린 것이 파워 스펙트럼고 이를 그리기 위해서는 에너지-시간 그래프(시간 도메인)를 푸리에 변환하여 에너지 밀도-주파수 그래프(주파수 도메인)로 변환한다.


Spectral density에는 여러 종류가 있다. 그때 사용하는 y축에 따라 여러가지 이름이 붙는다.

power spectrum = power spectral density = spectral density : y축-신호의 제곱, x축-주파수
energy spectral density : y축-에너지, x축-주파수

위키를 보면, power spectral density는 y 축이 power이고, energy spectral density는 y축이 energy인 것으로 보인다. 둘이 서로 같은것인지 다른 것인지 매우 헷갈린다. energy spectral density의 경우 에너지-시간 함수를 FFT한 것인데, power spectral density는 그럼 파워-시간 함수를 FFT한 것인가..?


자세히 보니.. 이런 구절이 있네 power spectral density (PSD), which describes how the power of a signal or time series is distributed over the different frequencies, as in the simple example given previously. Here, power can be the actual physical power, or more often, for convenience with abstract signals, can be defined as the squared value of the signal

즉 파워의 뜻이 물리학에서의 파워가 아니라, 그냥 제곱의 의미에서의 파워..... 즉 신호의 값(진폭)을 제곱한 것 

파워스펙트럼 : 어떤 파동의 주파수에 따른 진폭제곱값의 분포


http://simple.m.wikipedia.org/wiki/Power_spectrum
http://en.wikipedia.org/wiki/Spectral_density

예를 들어 white noise의 경우 아래와 같이 파워 스펙트럼이 직선으로 이루어진 즉, 모든 frequency가 동일한 에너지 전달 속도를 가진 파동을 의미한다.

  

Fourier Transform (푸리에 변환) : 어떤 파동에 대한 주파수의 분포를 보는 방법. 원래 파동의 Y 축이 에너지이면 에너지-주파수 분포가 되고, 진폭이면 진폭-주파수 분포가된다. 즉 X 축은 시간에서 주파수로 되고, Y축은 원래 Y축값에 대한 주파수상의 분포를 의미한다.


[시간-진폭]으로 된 time domain을 [주파수-분포]로 된 frequency domain으로 관점을 바꾸어 해석하는 방법



푸리에 변환은 푸리에 급수를 임의의 비주기적인 함수에도 적용할 수 있게 확장한 푸리에 적분(주기를 무한대로 보냄)을 의미한다. 

직관적으로 이해하자면 임의의 함수를 여러개의 주기를 가진 코사인 N개의 합으로 표현한 것이 푸리에 변환이고, 이때 그 코사인의 주기와 계수들의 스펙트럼을 표현한 것이 frequency domain이다.

http://en.wikipedia.org/wiki/Frequency_domain

http://ghebook.blogspot.kr/2012/08/fourier-transform.html
http://blog.naver.com/daehee3070/220110836164



FFT (Fast Fourier Transform) : FFT는 푸리에 변환을 이산적으로 계산하는 discrete fourier transform에서 삼각함수(사인, 코사인)의 주기를 이용해 계산속도를 높인 알고리즘이다. 즉 반복되는 계산을 생략하는 방식으로 속도를 빠르게하였다.

http://blog.naver.com/vs72/220323174160
http://guslabview.tistory.com/118


Periodogram : 어떤 신호의 spectral density를 추정한 그래프를 의미한다. Spectrum과 의미적으로 유사하지만, 수학적으로 엄밀하게 정의되어 있다.

http://en.wikipedia.org/wiki/Periodogram
http://kr.mathworks.com/help/signal/ug/psd-estimate-using-fft.html
(관련 매틀랩 코드)

MFCC (Mel-frequency cepstral coefficients) :

MP3의 wave에서 mel filterbank(주파수별로 쪼갠 것)을 적용하여

을 계산한다음 DCT를 취하고 2~13에 해당하는 계수를 뽑은 것

즉 대충 파워스펙트럼을 구한다음 mel 스케일을 적용한 다음 DCT를 취한 것. DCT는 파동을 코사인 함수 N개로 표현하는 것. 그래서 이 DCT의 계수를 취한 다는 뜻은 일정한 주기를가진 코사인 12개의 계수를 가져온 것으로 보인다.


http://practicalcryptography.com/miscellaneous/machine-learning/guide-mel-frequency-cepstral-coefficients-mfccs/
http://en.wikipedia.org/wiki/Mel-frequency_cepstrum
https://lbjcom.wordpress.com/article/mel-%EC%A3%BC%ED%8C%8C%EC%88%98-%EC%BA%A1%EC%8A%A4%ED%8A%B8%EB%9F%BC-mfcc-2p9i0m613vquw-10/
http://cluster1.cafe.daum.net/_c21_/bbs_search_read?grpid=2m1q&fldid=1zpc&datanum=39&openArticle=true&docid=2m1q1zpc3920010921155719
http://www.snunews.com/news/articleView.html?idxno=3895
http://ko.wikipedia.org/wiki/이산_코사인_변환
http://en.wikipedia.org/wiki/Discrete_cosine_transform


Envelope : 파형의 최상점 또는 최하점들을 부드러운 곡선으로 연결한 선


http://en.wikipedia.org/wiki/Envelope_(waves)

http://terms.naver.com/entry.nhn?docId=364371&cid=42605&categoryId=42605



Work (일): F*S (S는 distance)
http://simple.m.wikipedia.org/wiki/Work_(physics)


Energy (에너지) : W = △E, 잠재적인 일의 크기
(언제든 일로 바뀔 수 있는, 잠재적인 일의 크기)
http://blog.naver.com/at3650/220021836415


Power (일률) : W/ t , 시간당 일의 양, 일의 속도, 에너지가 일을 하는 속도, 에너지가 전달되는 속도
(단위는 watts)
http://simple.m.wikipedia.org/wiki/Power_(physics)




by 곽동현 이스텔리앙 2015.04.22 14:39
| 1 2 3 4 5 |