본문 바로가기
Research/Machine Learning

여러 Classifier 간의 특성

by IMCOMKING 2015. 9. 14.

- 여러 데이터의 구조에서 각 알고리즘들이 경계선을 찾은 결과

../../_images/sphx_glr_plot_classifier_comparison_001.png

http://scikit-learn.org/stable/auto_examples/classification/plot_classifier_comparison.html


참고로 scikit-learn 은 python 에서의 weka라고 생각될 정도로 매우 사용이 쉽고 다양한 알고리즘이 구현되어있다고한다. 단 2~3줄 만으로 학습 및 추론이 가능하다.



- 아래와 같은 데이터를 분류해보자. (arff는 weka의 데이터 형식이다.) generated by 곽하녹


1번.arff



이 문제는 우선 2차원에서의 유클리드 거리정보가 매우 중요하다. 따라서 KNN알고리즘을 쓰면 쉽게 97%의 정확도에 도달할 수 있다. SVM으로 할 경우 gamma가 매우매우 성능에 민감한 영향을 미치고 잘 피팅하면 98%까지 나온다.



2번.arff


이 데이터는 기본적으로 1번처럼 유클리드 거리를 이용해 분류 가능하나, 문제는 가운데에 2가지 클래스의 점이 겹쳐있다는 것이다. 따라서 61.5%가 베이즈에러에 근접한 성능의 한계로 생각된다. 베이즈에러는 완벽하게 데이터의 확률 분포를 알고 있어도, 겹치는 부분 때문에 맞출 수 없는 한계 성능을 의미한다.



3번.arff


이 데이터는 2번에서 가운데 겹치는 부분을 제거한 것이다. 이경우 KNN으로 약 95%의 성능과 SVM으로 gamma를 잘 조정할 경우 93%까지 성능이 얻어진다.

'Research > Machine Learning' 카테고리의 다른 글

Maximum Likelihood Estimation의 의미  (0) 2016.09.02
미분의 체인 룰, 합성 함수 미분  (0) 2015.10.11
Bayesian Optimization, Active learning  (0) 2015.08.13
Conventional AI  (0) 2015.08.11
Tex, LaTeX, Lyx  (0) 2015.08.10

댓글