Multivariate Gaussian : 2개이상의 변수에서 공분산을 구한 covariance matrix 를 이용해 그려지는 가우시안 분포

아래 그림의 초록색 원이 멀티 베리엇 가우시안이며, 빨간색과 파란색은 Maginalization 한 것이라고 볼 수 있다.



이런식으로 conditionals 도 정의된다.


3개의 변수에서 multivariate gaussian 은 구형태의 분포를 띌 것이다.




장점 : 매우 자연스럽게 regression 할 수 있다.

단점 : 데이터의 개수 n 에대해 n^3의 의 연산량이 필요하다.

트릭을 쓰거나 기존모델을 변형해 클래시피케이션을 하면 원래의 장점이 사라진다.


Gaussian Processes Regression : 한 차원의 변수에서, 변수간의 관계에 kernel 을 정의하고, 이 커널에 따라 무한개의 가우시안을 가정한다.
이를 통해 한 차원에는 무한개의 가우시안이 존재하고 이 가우시안의 평균과 분산을 이용해 해당 차원에서의 변수를 Regression 할 수 있다.

Gaussian Processes 란 이때 가정한 한 차원에 무한개의 가우시안이 존재하는 발상을 의미한다.



# 가장 쉽게 이해하는 방법.
포아송 프로세스를 생각해보자. 비어있는 택시가 내 앞을 지나가는 사건이 언제 일어날까? 그것은 바로 택시가 지나가는 사건과 사건 사이의 분포가 포아송 분포를 따라서 일어나게 된다. 이때 포아송 분포의 평균과 분산이 내가 위치한 지역이나 시간, 요일 등에 따라서 바뀌게 되는 것이다.

또는 방금 비어있는 택시가 지나갔는데, 그다음 빈 택시가 지나가려면 평균적으로 몇분을 기다려야 할까? 이것 또한 포아송 분포로 추정될 수 있다.


마찬가지이다. 어떤 임의의 변수 x가 있는데 그 변수로부터 다음 변수 x'가 나타날 때까지 포아송이 아니라 이번엔 가우시안 분포가 가정된다고 해보자. 다만 여기서는 x와 x'의 간격은 항상 일정하고, 대신 그 둘의 높이 y가 달라지는 것이다.(예를 들어 1분마다 빈 택시가 한대씩 지나가는데, 그 택시의 이동 속도가 몇일까? 이것이 바로 가우시안 프로세스 리그레션 문제)

그럼 시간이 흐름에 따라서 1분마다 x들이 나타나는데, 그 두 x간의 높이가 서로 가우시안 분포를 따르는 것이다. 즉 평균적으로 80km 으로 택시가 지나가면, x들의 높이는 80이다.
그런데 그전에 지나간 택시가 매우 빨랐다면? 그 다음 택시도 빠를까? 이런 관계가 바로 GP



'작성중인 포스트' 카테고리의 다른 글

Markov Random Field, Conditional Random Field  (0) 2014.11.14
Positive Definiteness  (0) 2014.11.13
Gaussian Processes  (0) 2014.11.13
Google Glass Develop kit  (0) 2014.10.02
Feature Space, Search Space  (0) 2014.09.29
Automata  (0) 2014.09.18
by 곽동현 이스텔리앙 2014.11.13 15:55