본문 바로가기
Research/Machine Learning

확률 통계 용어정의

by IMCOMKING 2015. 4. 20.

0. 확률 분포에 대한 기본 용어

probability density function (pdf): 연속 확률변수가 갖는 확률의 모양
probability mass function (pmf): 이산 
확률변수가 확률의 모양
cumulative distribution function (cdf) : pdf 나 pmf 적분한 것 = 확률
probability distribution function (pdf) : 확률 분포에 대한 일반적인 텀. 즉, 위의 3가지 모든 확률 분포에 대해 다 쓸 수 있는 용어임. 즉 사용시 혼동의 여지가 있음. (보통 cdf 를 가르키는 말로 좀 더 자주 사용됨.)


1. Frequentist view VS Bayesian view of “probability”

The biggest difference between them is considering the prior or not. Frequentists argue that probability estimation is enough with large data. But Bayesians argue that the real world problem  is hard to observe so we should use the prior knowledge so make the posterior probability. Empirically, Bayesian approach is show the better performance but hard to calculate the posteriori.


2. Random Variable(RV)

   임의의 확률을 가진 사건을 시행했을 때 그 결과를 나타내는 것이 확률 변수이다. 예를 들어 1~6사이의 자연수가 나오는 주사위 한 번 던지기에서 확률 변수 X = 1,2,3,4,5,6이 된다.


3. Probability distribution/density function

   확률 분포란, 연속확률변수의 확률을 나타낸 것이다. 이산확률 변수는 표의 형태로 표현이 가능하지만, 연속확률변수는 그것이 불가능하므로 그래프 및 함수의 형태로 표현한다.


4. Statistics

   통계란 확률 변수의 속성과 특징을 분석하고 밝혀내는 도구이다. 관찰되는 결과에서 규칙성을 파악하고 잠재된 확률의 분포를 추정하며 나아가 이를 통해 예측과 추론을 하기도 한다.


5. Expectation of a RV

   확률 변수의 기대 값은, 해당 사건을 수행하였을 때 예상되는 관측 결과로 전체 확률 변수의 평균과 동일하다.


6. Mean

   평균이란, 전체 값을 다 더한 다음 전체 개수로 나누어준 값으로 전체적인 값의 크기를 파악하는 대표 값이다.


 7. Variance

분산이란, 값들이 평균에서 얼마나 멀리 불규칙적으로 떨어져 있는 가를 나타내는 대표 값이다.


8. Covariance

공분산이란, 두 종류의 변수가 서로 상관 관계를 가지고 있는가를 나타내는 대표 값이다.


9. Correlation

   상관 계수란, 공분산의 값이 [–무한대,무한대]로 범위가 커서 쓰기 힘든 경우가 있어, 이를 해결하기위해 [-1,1]의 값을 갖도록 표준화시킨 것이다.


10. Joint probability

   결합확률이란, 여러 개의 사건이 함께 일어날 확률을 의미하며, 사건들이 독립인 경우 각 확률 값의 곱으로 구한다.


11. Conditional probability

   조건부확률이란, 특정 선행사건이 일어난 전제하에서 어떤 사건이 일어날 확률을 의미한다.


12. Marginal probability

   주변확률이란, 두 개 이상의 확률로 결합된 결합확률에서 하나의 확률만 선택하여 나타낸 확률이다. 주로 summation 을 통해 나머지 확률을 없애는 방식으로 구한다.


13. Independence between 2 RVs

   두 확률 변수가 독립이라는 것은, 두 확률이 함께 일어날 확률 값을 각 확률의 곱으로 구할 수 있음을 의미한다.


14. Bayes theorem

   베이즈 정리란, P(θ|x) = P(x|θ)*P(θ) / P(x) 의 공식을 의미하며, 실용적으로는 posteriori likelihood * prior 형태로 구하기 위해 쓰인다.


15. Prior probability

   Prior 확률이란, 파라미터의 확률 분포를 의미한다. 데이터 x는 파라미터 즉, 모델을 통해 나타내어 지는데 이 때 파라미터에 사전 지식을 반영한 것이 prior이다.


16. Likelihood

   Likelihood, P(x|θ) 로 데이터 x를 파라미터 θ를 통하여 나타내는 걸 의미한다. 이 값은 파라미터 즉 모델이 예측한 데이터 x의 각 확률을 전부 곱하여 구한다. 감독학습에서의 Likelihood P(y|x; θ) 이며, 이는 모델에 x라는 input을 넣었을 때 예측 되는 y 확률들을 전부 곱한 값을 의미한다.


17. Shannon information

   데이터의 정보량을 나타내기 위한 이론으로 데이터의 압축과 통신 등에 쓰인다. 엔트로피에 대한 개념이 가장 핵심이며 매우 다양한 학문 분야에서 사용된다.


18. Bit

   0또는 1의 값을 갖는 변수. 모든 아날로그 시그널 데이터를 이진수의 형태로 바꾸어 표현하는  기본 정보의 단위이다.


19. Entropy of a RV

   엔트로피는 정보량의 평균값을 나타낸다. 식으로는 E{-P(x)*logP(x)} 이다. 이는 무질서도를 나타내는 것으로 정보가 불규칙하고 불균형할수록 값이 커지고 규칙적이고 일정할수록 값이 작아진다.


20. Mutual information

   Mutual information은 두 변수간의 상관관계를 계산하는 것으로 P(X,Y) P(X)*P(Y)값의 차이를 통해 구한다.

http://en.wikipedia.org/wiki/Mutual_information


21. Kullback-Leibler Divergence

   KL다이벌전스는 두 확률분포간의 유사성을 나타내는 값이다. 계산상으로는 H(X,Y)-H(X)로 크로스엔트로피를 뺀 값이다.

http://ko.wikipedia.org/wiki/쿨백-라이블러_발산


22. Maximum Likelihood Estimate

   맥시멈 라이클리후드란 라이클리후드 값을 최대화하는 모델 파라미터를 선택하는 방법론을 의미한다. 이는 계산이 용이하고 쉽게 사용할 수 있는 장점이 있다.


23. Maximum a Posteriori Estimate

   맥시멈 포스테리어리란 포스테리어 확률 값을 최대화하는 모델 파라미터를 선택하는 방법론을 의미한다. 이는 베이즈 정리를 이용해 라이클리후드에 Prior를 곱하는 형태로 계산한다. 이 때 문제에 맞는 적절한 Prior 확률 분포를 선택해야하며 이를 conjugate prior라 한다.


24. Kalman filter

   칼만 필터란, 잡음을 고려하여 리니어 다이나믹 시스템의 상태를 추적하는 알고리즘이다. 알고리즘은 예측과 업데이트 두가지로 나눌 수 있으며, 둘 사이의 보정을 통해 더 정확히 추정을 한다.

http://blog.naver.com/cjswosa22/220207451056

http://blog.naver.com/dltkdtn00/220109991573


25. Fisher information and Cramer-Raou inequality

   피셔 인포메이션은 랜덤변수 X로부터 관측가능 한 정보의 총량을 의미한다. 크레이머-라오 바운드는 모델이 unbiased estimate를 할 때 가질 수 있는 분산의 하한선을 나타내는 부등식이다.

http://www.colorado.edu/isl/papers/info/node2.html

http://en.wikipedia.org/wiki/Cram%C3%A9r%E2%80%93Rao_bound

http://en.wikipedia.org/wiki/Fisher_information


26. Marginal likelihood

   라이클리후드에서 파라미터에 해당하는 변수를 summation을 통해 marginalized한 것을 말한다. Bayesian approach에서 prior를 통해 파라미터의 분포를 주어주는데, 이 때 marginalize를 하지 않으면, P(X, θ)이 나온다. 이 때 θ를 적분하여 없애면 마지널 라이클리후드가 되고 이 값을 통해 Bayesian appaorch에서 성능평가를 한다.

http://en.wikipedia.org/wiki/Likelihood_function

http://en.wikipedia.org/wiki/Marginal_likelihood


27. Belief propagation

   확률그래프 모델에서 given으로 어떠한 변수들이 주어졌을 때 이를 통해 영향 받는 다른 변수들의 확률 분포를 추정하는 알고리즘이다. 다른 이름으로 sum-product 메시지 전달이라고 한다.

조건부독립 또는 조건부확률에서, 어떤 확률 변수가 given으로 주어졌을 때 직접적인 관계가 없는 확률도 간접적으로 영향을 받는 것을 의미함.

확률 그래프 모델인 bayesian network 같은 경우를 예로 들면 colide(?) 형태에서 아래쪽이 given으로 주어지는 바람에 위의 두 노드가 서로 독립이 아니게 되는 현상을 말함.

http://en.wikipedia.org/wiki/Belief_propagation

http://ko.wikipedia.org/wiki/%EC%8B%A0%EB%A2%B0%EC%A0%84%ED%8C%8C




댓글