본문 바로가기

전체보기256

Gaussian Distribution, Gaussian Mixture Model Gaussian Distribution : 다른말로 정규 분포라고도 부른다.(자연계에서 많은 현상이 이 분포를 따르기 때문)가우시안 분포의 수식 유도는 링크된 다른 블로그에서 잘 설명되어 있다.여기서는 직관적인 이해를 시도해보겠다. 우선 정규분포의 모형을 보면 가운데를 중심으로 좌우가 대칭이다. 따라서 (x-u)^2 의 의미가 여기에 있다. 좌우가 대칭되도록 하기 위해 x의 제곱을 한 뒤, 평균 값인 u를 중심으로하게끔 평행이동 시킨 것이다.그 앞에 있는 -(1/2sigma^2)은 x^2식의 계수이다. 일단 부호가 음수인 이유는, 종모양으로 바꾸기 위해서 y축 대칭을 시킨 것이다. 그러면 1/2sigma^2의 값은 y=-ax^2 에서 a에 해당하는 것이 되고, 이것은 y=-ax^2 그래프의 좌우 크기를 .. 2014. 6. 11.
큰 수의 법칙, 중심 극한의 정리 # 큰 수의 법칙 : 표본집단들의 평균과 분산에 대한 법칙 어떤 모집단에서 표본집단들을 추출할 때, 각 표본집단의 크기가 커지면 그 표본집단들의 평균은 모집단의 평균과 같아지고, 표본집단들의 분산은 0에 가까워 진다. http://dermabae.tistory.com/146http://blog.daum.net/gongdjn/114 # 중심극한의 정리(Central limit theorem) : 표본집단들의 평균이 갖는 분포에 대한 법칙 그 어떠한 모양의 임의의 분포에서 추출한 표본집단들의 평균(표본평균)의 분포는 정규분포를 이룬다. (심지어 모집단이 정규분포를 따르지 않더라도. 단 각각의 표본의 크기가 적당히 커야한다. 30이상) http://blog.naver.com/PostView.nhn?blogId.. 2014. 6. 11.
Clustering, GMM, K-means, EM, DBSCAN 케이민즈 - 케이니얼니스트의 클러스터링 버젼 k means랑 gmm이랑 거의 비슷함. 차이는 가우시안분포에대한 가정이 있는가 없는가 / 둘다 클러스터의 개수를 지정하고, EM 식으로 둘다 이터레이티브하게 클러스터링을 함. Centroid : 무게 중심, 질량 중심 (정확히는 질량 중심인데 해석하는데 큰차이는 없어 보임.) K-means : K개의 클러스터를 묶어내는 것 (K-means가 EM(Expectation Maximization)의 전형적인 예라고 함.) Step 1) K개 만큼의 랜덤한 점을 정한다. Step 2) 각 클러스터의 점들을 계산해서 각각의 Centroid 를 구한다. Step 3) 입력받은 X1에대해 가장 가까운 Centroid 쪽의 클러스터에 할당한다. -> 다시 Step 2)로 .. 2014. 6. 11.
Nominal, Ordinal, Interval, Ratio Nominal : 각 데이터마다 Label이 정해져 있는 것 (Name) / Classification 문제ex) 어떤 (R,G,B) 값으로 구성된 색상을 보고, 이건 무슨색이다라고 이름을 맞추는 것 Ordinal : 어떤 데이터를 보고 랭킹을 정하는 것 (Order) / Regression 문제, 그러나 각 랭킹 사이의 거리가 일정하지 않을 수 있음. (즉 1등하고 2등하고의 실제 맞은 점수 차이는 엄청 작을 수도 있다는 것) ex) 영화 10개를 보고, 1~10등 까지 정하는 것. (이 때 1등과 2등은 근소한 차이일 수 있음) Interval : 어떤 데이터를 보고 자유롭게 평점을 정하는 것 / Regression 문제. Ordinal에서 보다 거리 정보를 고려한 것 ex) 영화를 보고 0.0 ~ .. 2014. 6. 11.
거리, Distance # 유클리드 거리(Euclidean Distance): 유클리드 공간에서의 기하학적 최단 거리(직선 거리)2차원상에서보면, 두점사이의 직선거리(고차원 상에서도 그릴 수는 없지만, 직선거리 or 최단라고 정의는 가능 할듯.) # 마할라노비스 거리(Mahalanobis Distance): 정규분포에서 특정 값 X가 얼마나 평균에서 멀리있는지를 나타내는 거리관측된 X가 , 얼마나 일어나기 힘든 일인지 즉 평균과 표준편차를 고려했을때 얼마나 중심에서 멀리 떨어져 있는가를 구하는 값. 주로 관측된 데이터의 신뢰성? 또는 적합성을 판단하는데 쓰인다고함.(에러인지를 판단한다)ex) 평균이 20, 표준편차가 3인 분포에서 26의 데이터가 관측 -> 이때 26의 마할라노비스 거리는 (26-20)^2/3 = 12가 됨. .. 2014. 6. 11.
공분산, 상관계수, 왜도, 첨도 Variance: 편차제곱의 평균 = X제곱의 평균 - X평균의 제곱 즉 편차의 정도를 제곱내서 측정하는 것.(제곱을 안하면 부호가 양수와 음수가 있어서 평균내면 항상 0이 됨) Covariance: X편차 * Y편차 = X*Y의 평균 - X평균*Y평균 두 편차 random variable가 같이 변하는 방향성이 있는지 측정또는 N차원 공간 상에서, 각각의 차원들이 서로 상관성을 갖는지를 측정하는 것임. 즉 어떤 dim과 어떤 dim은 서로 100%의 상관성을 갖는다라고 하면, 이 dim은 하나로 합쳐질 수 있는 것임. 왜도 (Skewness) : 이 분포가, 좌우로 얼마나 치우쳐져 있는가를 나타낸다. 첨도 (Kurtosis) : 이 분포가 얼마나 뾰족한가를 나타낸다. (컬토시스 -> 칼의 뾰족함) 공분.. 2014. 6. 11.
벡터의 내적과 외적 벡터의 내적 :해석-> B벡터를 A벡터로 정사영한다음 두 길이를 곱한다. 두백터의 같은 방향으로의 길이 곱을 구한 느낌. 벡터의 외적 :해석-> B벡터의 A벡터로의 sin값, 즉 A백터에 수직한 B성분의 길이로 곱한다. 두벡터의 서로 수직인 방향으로의 길이 곱을 구한 느낌.(왠지 두 벡터로 넓이를 구하는 느낌이다)그로 인해 외적의 결과는 새로운 벡터가 나오며, 그것은 A와 B벡터에 모두 수직인 벡터이다. 따라서 어떤 순서로 곱하냐가 중요.A와 B벡터로 하나의 평면을 찾을 수 있고, 그 평면에 수직인것이 바로 A,B벡터의 외적이다.(따라서 방향이 2가지 존재) 2014. 6. 11.
ROC curve, ROC_AUC, PR_AUC, 민감도, 특이도 ROC curve (Receiver Operating Characteristic curve) : FPR과 TPR을 각각 x,y축으로 놓은 그래프. ROC curve는 X,Y가 둘다 [0,1]의 범위이고, (0,0) 에서 (1,1)을 잇는 곡선이다. - ROC 커브는 그 면적이 1에 가까울수록 (즉 왼쪽위 꼭지점에 다가갈수록) 좋은 성능이다. 그리고 이 면적은 항상 0.5~1의 범위를 갖는다.(0.5이면 랜덤에 가까운 성능, 1이면 최고의 성능) - TPR : True Positive Rate (=민감도, true accept rate) 1인 케이스에 대해 1로 잘 예측한 비율.(암환자를 진찰해서 암이라고 진단 함) - FPR : False Positive Rate (=1-특이도, false accept .. 2014. 6. 11.
안드로이드 여러가지 트러블 슈팅 - Theme.AppCompat.Light 에러No resource found that matches the given name '@android:style/Theme.Holo.Light'. styles.xml Project - android - Library 에서 추가해주어야함.http://androidx.tistory.com/2http://www.youtu.kr/1035810 - 프로젝트 import가 이유없이 안될때 프로젝트의 이름을 변경해볼 것 (이미 import된 프로젝트와 이름이 겹쳐서 그런 것임.) - 프로젝트 실행시 library cannot be launced 가 뜰때 프로젝트 세팅 - android 에서 is library 를 체크 해제할 것. ----------- Android Stu.. 2014. 6. 10.
안드로이드 파일 입출력, 경로, 모드 / 네트워크 통신 # 루트 디렉토리 접근 및 제어기본적으로 안드로이드의 data/data 폴더는 루팅을 해야만 접근이 가능하다. 특히 구글 글래스를 USB로 연결해보면 internal storage에 DCIM이랑 Pictures 폴더밖에 없다. 개발자용이 아니라 adb를 이용해야만 디렉토리에 접근이 가능하다고 한다. 1) 경로 탐색adb shell 로 접속한다음 ls 등의 리눅스 명령어를 통해 탐색. 1-1) 여러개의 안드로이드를 연결했을 때,adb devices; //연결된 안드로이드의 ID리스트 출력adb -s [ID] shell; 2) 파일 가져오기adb pull /storage/sdcard0/AutoRecorder/test.txt test.txt - 파일 전송 : http://androidforums.com/eri.. 2014. 6. 10.
Indicator Function Ⅱ(x=1)이런 모양으로 생긴 수학기호는 인디케이터 펑션이라하며, ()괄호안의 조건이 참이면 1을 리턴하고, 아니면 0을 리턴한다. 2014. 6. 6.
조건부 독립과 응용 독립 (Independence) : P(A,B) = P(A)*P(B), A⊥B 으로 표기 우리가 일반적으로 말하는 독립은 사실 무조건부 독립이라고 볼 수 있다. 즉, A와 B 사건은 어떠한 상황에서도 서로 독립이다. 그러나 이러한 예는 실제 세계에서는 생각보다는 별로 존재하지 않는다. 조건부 독립 (Conditional independence) : P(A,B|C) = P(A|C)*P(B|C) , (AㅛB)|C 으로 표기 조건부 독립. A와 B 사건은, C사건 하에서는 서로 독립이다. 줄여서 CI라고도 한다.(다른 D사건의 전제하에해서는 독립일 수도, 아닐 수도 있다.) 이때 그냥 A와B는 서로 독립이 아님. 왜냐하면 서로 C를 통한 연관성이 있기때문. 그러나 C가 일어난 상황에서는 A,B를 서로 독립이다.. 2014. 6. 6.
Overfitting, Underfitting, Cross-validation Overfitting (과적합) : training 데이터 셋에 대해서는 매우 높은 성능을 보이지만, 학습할 때 사용되지 않은 test 데이터 셋에 대해서는 정확도가 떨어지는 문제.Underfitting : training 데이터를 충분히 학습하지 못하여, test 데이터 뿐만 아니라, training 데이터에서 조차도 성능이 낮은 문제. K-Fold Cross-validation (교차검증, 교차타당화) : 전체 데이터 셋에서 training과 test 성능을 통계적으로 타당하게 측정하는 방법. 전체 데이터를 랜덤하게 나누어 K 등분을 하고, K개 중 1번 째 데이터를 test 셋으로, 나머지 전부를 training 셋으로 사용하여 학습한 모델의 성능을 측정한다. 그다음 다시 K개중 2번 째 데이터를 .. 2014. 6. 6.
Linearity, Non-Linearity, Linear Regression, Logistic Regression Linearity (선형성) : 두개의 벡터스페이스가 오직 덧셈의 관계로만 있는 것. 즉 독립변수X들간에 서로 상관관계가 없다.y=ax1+bx2+...+e (그래서 보통 y=XT+E 로 표현.) 여기서 XT는 x변수들의 매트릭스임. 정의: f(a*x1 + b*x2)=a*f(x1) +b*f(x2) 를 만족하는 함수 f를 선형함수라고 한다. Ex) 여러개의 x 변수들끼리의 관계가 선형적인 것 (덧셈 관계) (어떤 건물에 방이 10개있다면 전체 건물의 가격은 방1에서 방10까지의 가격의 합과 비례한다.(덧셈 관계)) - 선형함수: f(x+y) = f(x)+f(y) 를 만족하고, 동시에 f(ax) = af(x)를 만족하는 함수 f를 선형함수라고 한다. https://en.wikipedia.org/wiki/Lin.. 2014. 6. 6.
Parametric vs Non-parametric 차이점 구분하기"Unlike a parametric model, where the number of parameters stay fixed with respect to the size of the data.In nonparametric models, the number of parameters grows with the number of data points."https://stats.stackexchange.com/questions/46588/why-are-gaussian-process-models-called-non-parametric 즉, 파라미터의 개수를 정확히 셀 수 없는 경우에 논파라메트릭이라고 한다. # Parametric Model : 데이터가 특정한 모델을 따른다고 가정하고, 그것의 고정.. 2014. 6. 5.
K-Nearest Neighbors, IB1, IBk K-nearest neighbors : Machine Learning 중 가장 간단한 방법, base line으로도 쓰이며 유클리드 거리에 기반하여 가장 가까운 k개의 instance를 같은 클래스로 묶어서 분류하거나 클러스터링하는 알고리즘이다.단점-> 계산량이많고, 메모리가 많이 필요하다. 노이즈에 약하다, 고차원에서 성능이 좋지 않다.(고차원에서 유클리드 거리를 측정하면, 매우 값이 크게 나오기 때문에 nearest neighbor라고 하기 어렵다는 것 같음.)장점-> 정확도가 높다. ex) 테스트케이스가 주어짐. K=1이라면, 가장 근접한 1개의 점을 찾아서, 그것과 동일한 레이블을 다는 것.(보로노이 테셀레이션) K=10이라면, 가장 근접한 10개의 점을 찾아서, 그중에서 가장 많은 것의 레이블을.. 2014. 6. 4.
[톰캣] 리눅스 톰캣 재시작 cd tomcat/bin/ 이동하면 tomcat 실행 파일이 존재합니다. ./shutdown.sh 2014. 5. 18.
[HTML] onsubmit onsubmit 을 이용해 폼체크를 하신후 submit을 하실거면 onsubmit="return formck();" 이렇게 해주셔야 onsubmit에서 true일시 submit을 false 일시 submit을 안날리게되요 ㅋ[출처] [javascript]form에서 onsubmit return false가 먹히지 않을때 에러 해결|작성자 써니 http://les2575.blog.me/70158666668 onsubmit의 의미 -> submit버튼을 누르기전에 특정 일을 처리하며, true일때만 submit을한다 2014. 5. 18.
Regression 모델의 성능 평가, 회귀분석 결과 확인 # 회기 분석 결과상관계수(Correlation coefficient): 두 변수간의 연관된 정도를 나타냄. # 모델의 성능 평가다음 둘다 오차율을 나타내는 값임.(둘다 오차의 정도에대한 값이므로, 당연히 0에 가까울수록 좋음)Root Mean Square Error (RMSE) : 편차 제곱의 평균에 루트를 씌운 값.이걸 기준으로 성능을 올리면, 이는 표준편차를 기준으로 하기때문에, 큰 에러를 최대한 줄이는 방향으로 학습을 함.-> ex) 정답이 9인 경우 9, 9, 6, 9 보다 8, 8, 8 ,8 를 좋게 평가 Mean absolute error (MAE) : 편차에 절대값을 씌운것의 평균단순 편차의 절대값의 평균임. 그러므로 RMSE와 달리 작은 에러에 더 민감함.-> ex) 정답이 9인 경우 8.. 2014. 5. 16.
세션 한글 정보 처리 http://blog.naver.com/gdrtlee?Redirect=Log&logNo=100131252789 보는것 처럼, post로 전송하고 서블릿에서는 req.setCharacterEncoding("utf8");resp.setContentType("text/html; charset=utf8");JSP에서는 (기능은 똑같음) 2014. 5. 13.