본문 바로가기

Research114

ROC curve, ROC_AUC, PR_AUC, 민감도, 특이도 ROC curve (Receiver Operating Characteristic curve) : FPR과 TPR을 각각 x,y축으로 놓은 그래프. ROC curve는 X,Y가 둘다 [0,1]의 범위이고, (0,0) 에서 (1,1)을 잇는 곡선이다. - ROC 커브는 그 면적이 1에 가까울수록 (즉 왼쪽위 꼭지점에 다가갈수록) 좋은 성능이다. 그리고 이 면적은 항상 0.5~1의 범위를 갖는다.(0.5이면 랜덤에 가까운 성능, 1이면 최고의 성능) - TPR : True Positive Rate (=민감도, true accept rate) 1인 케이스에 대해 1로 잘 예측한 비율.(암환자를 진찰해서 암이라고 진단 함) - FPR : False Positive Rate (=1-특이도, false accept .. 2014. 6. 11.
Indicator Function Ⅱ(x=1)이런 모양으로 생긴 수학기호는 인디케이터 펑션이라하며, ()괄호안의 조건이 참이면 1을 리턴하고, 아니면 0을 리턴한다. 2014. 6. 6.
조건부 독립과 응용 독립 (Independence) : P(A,B) = P(A)*P(B), A⊥B 으로 표기 우리가 일반적으로 말하는 독립은 사실 무조건부 독립이라고 볼 수 있다. 즉, A와 B 사건은 어떠한 상황에서도 서로 독립이다. 그러나 이러한 예는 실제 세계에서는 생각보다는 별로 존재하지 않는다. 조건부 독립 (Conditional independence) : P(A,B|C) = P(A|C)*P(B|C) , (AㅛB)|C 으로 표기 조건부 독립. A와 B 사건은, C사건 하에서는 서로 독립이다. 줄여서 CI라고도 한다.(다른 D사건의 전제하에해서는 독립일 수도, 아닐 수도 있다.) 이때 그냥 A와B는 서로 독립이 아님. 왜냐하면 서로 C를 통한 연관성이 있기때문. 그러나 C가 일어난 상황에서는 A,B를 서로 독립이다.. 2014. 6. 6.
Overfitting, Underfitting, Cross-validation Overfitting (과적합) : training 데이터 셋에 대해서는 매우 높은 성능을 보이지만, 학습할 때 사용되지 않은 test 데이터 셋에 대해서는 정확도가 떨어지는 문제.Underfitting : training 데이터를 충분히 학습하지 못하여, test 데이터 뿐만 아니라, training 데이터에서 조차도 성능이 낮은 문제. K-Fold Cross-validation (교차검증, 교차타당화) : 전체 데이터 셋에서 training과 test 성능을 통계적으로 타당하게 측정하는 방법. 전체 데이터를 랜덤하게 나누어 K 등분을 하고, K개 중 1번 째 데이터를 test 셋으로, 나머지 전부를 training 셋으로 사용하여 학습한 모델의 성능을 측정한다. 그다음 다시 K개중 2번 째 데이터를 .. 2014. 6. 6.
Linearity, Non-Linearity, Linear Regression, Logistic Regression Linearity (선형성) : 두개의 벡터스페이스가 오직 덧셈의 관계로만 있는 것. 즉 독립변수X들간에 서로 상관관계가 없다.y=ax1+bx2+...+e (그래서 보통 y=XT+E 로 표현.) 여기서 XT는 x변수들의 매트릭스임. 정의: f(a*x1 + b*x2)=a*f(x1) +b*f(x2) 를 만족하는 함수 f를 선형함수라고 한다. Ex) 여러개의 x 변수들끼리의 관계가 선형적인 것 (덧셈 관계) (어떤 건물에 방이 10개있다면 전체 건물의 가격은 방1에서 방10까지의 가격의 합과 비례한다.(덧셈 관계)) - 선형함수: f(x+y) = f(x)+f(y) 를 만족하고, 동시에 f(ax) = af(x)를 만족하는 함수 f를 선형함수라고 한다. https://en.wikipedia.org/wiki/Lin.. 2014. 6. 6.
Parametric vs Non-parametric 차이점 구분하기"Unlike a parametric model, where the number of parameters stay fixed with respect to the size of the data.In nonparametric models, the number of parameters grows with the number of data points."https://stats.stackexchange.com/questions/46588/why-are-gaussian-process-models-called-non-parametric 즉, 파라미터의 개수를 정확히 셀 수 없는 경우에 논파라메트릭이라고 한다. # Parametric Model : 데이터가 특정한 모델을 따른다고 가정하고, 그것의 고정.. 2014. 6. 5.
K-Nearest Neighbors, IB1, IBk K-nearest neighbors : Machine Learning 중 가장 간단한 방법, base line으로도 쓰이며 유클리드 거리에 기반하여 가장 가까운 k개의 instance를 같은 클래스로 묶어서 분류하거나 클러스터링하는 알고리즘이다.단점-> 계산량이많고, 메모리가 많이 필요하다. 노이즈에 약하다, 고차원에서 성능이 좋지 않다.(고차원에서 유클리드 거리를 측정하면, 매우 값이 크게 나오기 때문에 nearest neighbor라고 하기 어렵다는 것 같음.)장점-> 정확도가 높다. ex) 테스트케이스가 주어짐. K=1이라면, 가장 근접한 1개의 점을 찾아서, 그것과 동일한 레이블을 다는 것.(보로노이 테셀레이션) K=10이라면, 가장 근접한 10개의 점을 찾아서, 그중에서 가장 많은 것의 레이블을.. 2014. 6. 4.
Regression 모델의 성능 평가, 회귀분석 결과 확인 # 회기 분석 결과상관계수(Correlation coefficient): 두 변수간의 연관된 정도를 나타냄. # 모델의 성능 평가다음 둘다 오차율을 나타내는 값임.(둘다 오차의 정도에대한 값이므로, 당연히 0에 가까울수록 좋음)Root Mean Square Error (RMSE) : 편차 제곱의 평균에 루트를 씌운 값.이걸 기준으로 성능을 올리면, 이는 표준편차를 기준으로 하기때문에, 큰 에러를 최대한 줄이는 방향으로 학습을 함.-> ex) 정답이 9인 경우 9, 9, 6, 9 보다 8, 8, 8 ,8 를 좋게 평가 Mean absolute error (MAE) : 편차에 절대값을 씌운것의 평균단순 편차의 절대값의 평균임. 그러므로 RMSE와 달리 작은 에러에 더 민감함.-> ex) 정답이 9인 경우 8.. 2014. 5. 16.
[신경 과학] 기초가되는 자료 다음 블로그에서 옛기억을 떠올리며 신경과학의 기초를 복습함.http://www.mind21.net/2.htm 뉴런은 세포분열을 하지않는다고 알려져있었으나, 최근에 성인에게서도 신경줄기세포가 발견되었다고함. 즉 계속 증가한다.한 뉴런은 3만개의 뉴런으로부터 정보를 받아 다른 1만개의 뉴런에게 전달한다고함.. 미쳤네; 규모가..뉴런은 수상돌기(dendrites)와 축삭돌기(axon)이 존재하며, 수상돌기는 다른뉴런으로부터 정보를 입력받는 인풋, 축삭돌기는 다른 뉴런에게 정보를 전달하는 아웃풋을 담당한다. 그리고 이 가운데에는 신경세포체가 있다.(몸통역할, 가운데 핵이 있음)이 뉴런과 뉴런의 사이를 Synapse라고하며, 고등생물은 화학적인, 신경 전달 물질을 사용해 신호를 전달(속도가 느리나 더 진화됬다고함.. 2014. 5. 2.
[논문 요약] Affective computing with primary and secondary emotions in a virtual human 이 논문은 WASABI라는 감정 연구분야에서 아주 유명한 논문이다.저자가 와사비를 좋아하는가보다.간단히 소개하자면, 감정을 3차원으로 분류한다음 해당 감정을 가진 3D 캐릭터를 만든다. (Thespian과 유사한 방식) 그 캐릭터는 1차적 감정과 2차적 감정을 모두 인식할 수 있는 시스템을 갖추고 있다.1차적 감정은 태어날 때 부터 가지고 있는 본능적인 감정으로 여기서는 공포를 사용한다. (밤길을 혼자 걸을 때 그 공포)2차적 감정은 학습을 통해 생기는 고차원적인 감정으로 여기서는 예측된 공포를 사용한다. (예측된 공포란, 시험을 망치고나서 부모님에게 혼날 것을 걱정하는 그런 것) 그래서 결론은 해당 3D캐릭터와 유저가 스킵-보라는 카드 게임을 플레이하며 이때, 3D캐릭터의 얼굴에 나타나는 공포를 유저가.. 2014. 4. 28.
[논문 요약] The World of Emotions Is Not Two-Dimensional 이 논문은 매우 심플한 논문이다.전체 논문중 무려 절반 가까이를 거대한 표가 차지한다.심지어 논문의 제목이 모든 내용이다. 연구진에서 여러 언어를 가진 대상에게 실험을 수행한 결과, 감정들은 최소 3개이상의 차원으로 표현이 되어야한다. 이것이 결론이다.실험 수행 방법이 조금 이해 안갈수도 있는데, 기억을 더듬어보면 144개의 감정이 담긴 행동을 정의하고, 24개의 표준 감정을 정한다.그다음 각각의 144개의 감정 행동을 24개 중 랜덤으로 추출한 4개의 감정으로 표현하는 것이다.(점수로)예를 들어 "배가 고픔"이라는 감정 행동에대해 슬픔, 기쁨, 화남, 역겨움 4개의 감정이 랜덤으로 추출 되었다면배가고픔 : 슬픔 6점 / 기쁨 0 점 / 화남 8점 / 역겨움 / 2점등으로 표현하는 것이다.그리고 이것을 .. 2014. 4. 28.
[구글 스콜라] 논문 검색 및 저자 검색 구글 스콜라 검색하기http://scholar.google.co.kr/ 구글은 세르게이 브린과 레리 페이지가 대학원 재학 중 개발한 검색 기술로 창업된 회사이다. 최초의 검색은 대학원에서의 논문 및 연구를 쉽게 찾아 중복된 연구를 막고 관련된 정보를 찾기 위한 특수한 목적에서 연구되었다. 검색 기술에는 상당히 복잡한 수학 이론이 들어가게 되는데, 당시 학계의 수학자들이 이러한 검색 엔진을 개발한다는 소식을 듣자 서비스의 필요성을 돕기 위해 자발적으로 참여하여 수학 이론을 발전시켰다고 한다. 즉 구글 스콜라는 구글이 만든 된 최초의 서비스고, 그것이 아직도 훌륭한 형태로 가장 좋은 학술 검색 엔진으로 쓰이고 있다. 위에 링크된 주소로 들어가면 아래와 같이 "거인의 어깨에 올라서서 더 넓은 세상을 바라보라-.. 2014. 4. 28.
[논문 요약] Thespian : Using Multi-Agent Fitting to Craft Interactive Drama 두 번째로 읽은 논문, Thespian이라는 프레임워크에대해 소개해주는 논문이었다.Thespian은 감정을 차원이 아니라, 6가지 Ekman 분류를 사용하는 프레임워크였으며, 3D캐릭터를 생성하여 실제 그 캐릭터들이 서로간에 상호작용을 한다. 그래서 마치 영화를 찍듯이 활용할 수도 있고, 사용자가 참여하여 교육적으로 활용될 수도 있었다.처음엔 정말 게임처럼 보였다.(언리얼 엔진을 사용했다고..) http://www.cs.huji.ac.il/course/2005/aisemin/articles2006/docs/pa1a2_21.pdf 2014. 4. 28.
[논문 요약] A Survey of Affect Recognition Methods : Audio, Visual, and Spontaneous Expressions 처음 읽는 논문이라 시간이 상당히 오래걸렸다.특히 영어단어를 일일이 찾아가며 암기했는데, 나중에는 그냥 단어 뜻만 알고 넘어갔다.(계속 반복되어 결국 외워짐)간단히 요약하면 2009년 당시 존재하는 감정인식 기술에대한 리뷰 논문으로 2차원, 3차원 감정을 시각, 음성, 멀티모달 등으로 측정하는 연구에대해 종합적으로 정리한 논문이다. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.144.217&rep=rep1&type=pdf 2014. 4. 28.