본문 바로가기

Research114

Bayesian Optimization, Active learning 둘다 가우시안 프로세스, 가우시안 리그레션으로 에러 펑션에 대한 근사함수를 만든다음 그 근사함수 상에서 에러를 최소화하는, 또는 근사 함수를 좀더 정확하게 만들 수 있는 점들을 다음 실험의 하이퍼파라미터로 사용한다. 그렇게 최소화된 실험 횟수로 하이퍼파라미터를 찾을 수 있다. https://www.youtube.com/watch?v=VG2uCpKJkSg Bayesian Optimization : 딥러닝을 제외한 여러 하이퍼파라미터 서치 알고리즘. 뉴럴넷의 하이퍼파라미터에 대해 에러를 minimize하기위한 objective function을 가짐. 직접적으로 에러에 대한 최소화를 목표로하기때문에 active learning보다 더 성능이 잘나온다고함. 또한 이것의 의미는 비전문가도 머신러닝을 쉽게 쓸 수.. 2015. 8. 13.
Conventional AI Planning & scheduling : is searching a state transition processes toreach the goal state.https://en.wikipedia.org/wiki/Automated_planning_and_schedulinghttp://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.49.2340&rep=rep1&type=pdf Decision making : 디시전 메이킹은 기본적으로 디시전 트리를 생각하면 될듯.걍 머신러닝알고리즘이 하는게 디시전 메이킹임https://en.wikipedia.org/wiki/Anticipation_(artificial_intelligence) 2015. 8. 11.
Tex, LaTeX, Lyx Tex는 LaTex 형식으로 문서를 작성하여 해당 학회의 스타일에 맞게 원본 문서가 변형되고, 레퍼런스 형식 또한 자동으로 맞춰지게 해주는 문서 작성 프로그램이다.워드파일에 비해 실행환경에 영향 받는 정도가 훨씬 적어서 문서가 일관된 형식으로 보여지는 매우큰 장점이 있다.또한 수식을 입력하는 것도 워드에 비해 더 편리하다.https://ko.wikipedia.org/wiki/TeX 1. tex live 2015를 설치한다.http://wiki.ktug.org/wiki/wiki.php/%EC%84%A4%EC%B9%98%ED%95%98%EA%B8%B0Windows/tlinstall 2. texmaker 를 설치한다.(기본에디터인 texworks보다 훨씬 편리하고 기능이 더 좋은듯하다.)http://www.x.. 2015. 8. 10.
논문 작성시 저작권의 공정 이용 저작권에 대한 여러가지 자세한 설명http://www.mcst.go.kr/web/s_policy/copyright/question/question01.jsp 공정 이용 : 특수한 조건하에서 저작권자의 허락 없이 저작물을 사용 가능하게 하는 법률https://ko.wikipedia.org/wiki/%EA%B3%B5%EC%A0%95_%EC%9D%B4%EC%9A%A9 영문 원본 링크https://www.libraries.psu.edu/psul/lls/students/using_information.html다음 4가지 사항의 정도에 따라, 공정이용으로 판단된다.the purpose and character of the use, including whether such use is of commercial nat.. 2015. 8. 10.
Word2Vec, Bag-Of-Words, 최신 word embedding - Word2Vec의 배경 Word2Vec는 원래 인공 신경망 연구에서 태어났으며 같은 맥락을 지닌 단어는 가까운 의미를 지니고 있다는 전제에서 출발한다. Word2Vec는 텍스트 문서를 통해 학습을 진행하며, 어떤 단어에 근처(전후 5-10단어 정도)에서 등장하는 다른 단어들의 출현 빈도를 이용한다. 이는 유사한 의미의 단어들은 문장의 가까운 위치에서 함꼐 출현할 가능성이 높기 때문에, 학습을 반복해 나가는 과정에서 같이 나오는 단어들이 가까운 좌표(벡터)를 갖도록 학습해나간다. Word2Vec 개발에 주도적인 역할을 담당한 Mikolov는 14년 8월 구글을 퇴사하고 페이스북으로 이적한 것으로 보이며, 벡터 해석을 단어에서 구문까지 확장시킨 Paragraph2Vec의 구현에 주력하고 있다고 한다. P.. 2015. 8. 3.
RNN의 Vanishing Gradient와 Exploding Gradient Spectral radius : 아이겐 벨류의 절대값중 가장 큰 것https://en.wikipedia.org/wiki/Spectral_radius RNN의 gradient가 0에 가깝게 사라저기나, 폭발적으로 발산하는 이유는 hidden to hidden Weight가 time unfolding을 하는 bptt의 과정에서 반복해서 곱해지기 때문이라고 한다. 만약 이 weight의 spectral radius가 1보다 작으면 결국엔 vanishing을 하게 되고, 1보다 크면 exploding을 하게 된다. 이를 해결하기 위해 L1, L2 norm regularization을 weight에 적용하여 exploding을 막거나 하는 방법 등이 사용된다.그러나 gradient vansihing 문제는 해결하.. 2015. 7. 8.
Hilbert Space, Orthogonality, Fourier Transformation Hilbert Space : 일반적으로 우리가 사용하는 유클리디안 스페이스를 좀더 일반적인 영역까지 확장한 개념.우선 우리가 사용하는 힐버트 스페이스는 무한차원의 벡터 스페이스를 의미한다. 이 힐버트 스페이스에서 두 벡터의 내적은 두 함수의 곱셈에 대한 적분으로 정의된다. 힐버트 스페이스 상에서의 한 점(벡터)은 무한개의 원소를 갖고 있어 함수의 형태로 표현을 해야한다. 그렇기 때문에 두 벡터의 내적은 결국 두 함수의 곱셈에 대해 적분하여 모든 점들의 정보를 합한 것이 된다. * 전문가의 제대로된 설명 * Orthogonality : 직교성을 기하학적으로 이해하면 90도로 비틀어진 축이다. 그러나 이렇게 이해하면 무한 차원에서는 다소 헷갈릴 수 있다. 단순히 대수적으로 내적의 값이 0 이다라고 생각하면 .. 2015. 7. 8.
CNN, Spectrogram 을 CNN으로 학습 CNN(Convolutional Neural Network)model.add(Convolution2D(96, 1, 11, 11, subsample=(4, 4))) number_of_filter / stack_size / row / column size_of_filter / convolution_size(subsample)즉 96개의 피쳐를 추출하는, 11*11*3 사이즈의 filter를 만들것임. 이 filter는 (4,4)간격을 가지며 convolution함stack이란 : 일반 이미지는 (R,G,B)형태의 3차원 vector로 데이터가 구성되어 있음. 따라서 stack_size가 3이어야만 돌아감. 즉 r평면, g평면, b평면이 3층으로 쌓여 있는 3차원 매트릭스임.그래서 이 filter하나에는 11.. 2015. 4. 22.
확률 통계 용어정의 0. 확률 분포에 대한 기본 용어probability density function (pdf): 연속 확률변수가 갖는 확률의 모양 probability mass function (pmf): 이산 확률변수가 확률의 모양 cumulative distribution function (cdf) : pdf 나 pmf 적분한 것 = 확률 probability distribution function (pdf) : 확률 분포에 대한 일반적인 텀. 즉, 위의 3가지 모든 확률 분포에 대해 다 쓸 수 있는 용어임. 즉 사용시 혼동의 여지가 있음. (보통 cdf 를 가르키는 말로 좀 더 자주 사용됨.) 1. Frequentist view VS Bayesian view of “probability”The biggest dif.. 2015. 4. 20.
BI CM세미나 동영상 Playlist https://www.youtube.com/playlist?list=PLzWH6Ydh35ggVGbBh48TNs635gv2nxkFI ----------Online Convex Optimization https://www.youtube.com/watch?v=BK_K1cYG3VU Multivariate Density Estimation by Bayesian Sequential Partitioning https://www.youtube.com/watch?v=HVY6QpPdN2w Dirichlet Process https://www.youtube.com/watch?v=O2NDm_XOnS0 Dynamic Cue Combination in Distributional Population Code Net.. 2015. 4. 20.
신경과학의 원리 1 수업 - Chapter 5. Ion Channels Principles of Neural Science 5th Edition- 세포막을 투과하는 성질 1) 크기가 작을 수록 세포막을 잘 투과한다. 2) 전하를 띌 수록 세포막을 투과하지 못한다. 이온의 경우 이 2번 성질 때문에 세포막을 투과할 수 없다. 이온은 세포의 활동에 필수적인 물질이므로 반드시 세포막을 통과해야 한다. 그래서 이온 채널이 필요하다. - Ion Channel의 특징 1) 이온 채널은 이온을 선택적으로 투과시킨다.(이온에 대한 selectivity가 있다.) -> 필요한 이온을 상황에 따라 골라서 받아들이거나 내보내는 것이다.2) 이온 채널은 멤브레인에 integral한 단백질이다. -> membrain에 박혀 있는 굴뚝 내지는 창문으로 생각할 수 있다.3) 이온채널을 열고 닫는 ga.. 2015. 4. 16.
신경과학의 원리 1 수업 - Chapter 4. The Cells of the Nervous System Principles of Neural Science 5th Edition : Chapter 4. The Cells of the Nervous System - Glial cell(신경교세포)는 뉴런과 달리 신경 전달 기능을 갖고 있지는 않지만, 신경세포를 지지하고 중추신경계의 대사 기능에 관여하는 세포. 준 신경세포 같은 느낌? 뉴런과 glia는 비슷한 특징이 많음. 다만 뉴런은 다른 뉴런에게 빠르고 정확하게 정보를 전달하는 것이 가능함. 이는 2가지 특징에 의해 이루어짐. 1) morphological and functional asymmetry : 형태와 기능이 비대칭적으로, 뉴런은 receptive dendrite가 한쪽 끝에 있고, 다른 한쪽에는 axon이 있음. 2) electrically and.. 2015. 4. 16.
TDNN, RNN, LSTM, ESN TDNN(Time Delay Neural Network) : 그냥 일반적인 MLP인데, input 데이터로 시간에 대해 (t, t-1, t-2) 인 데이터를 한 번에 넣는 방법. 시간을 고려한 모델이 아닌 데에 discrete 한 시간 데이터를 다룰 때 쓰는 가장 간단하고 대표적인 방법. Continuous 한 시간 데이터의 경우는 위 방법으로 할 수가 없다. 그래서 sliding windowing 방식으로 일정한 길이의 데이터를 일정 부분씩 겹치도록(보통 50%) 전처리 한 뒤 사용한다.(강제로 discrete하게 나누고, 대신 50%씩 겹치도록) 그러나 TDNN 방법은 한정된 데이터의 time sequence만 학습할 수 있기 때문에(예를 들면 t, t-1,t-2 면 third order) 시간데이터.. 2015. 4. 15.
기계학습 오픈 소스 정리 Deep Learning주로 위 사이트에서 오픈소스로 링크된 리스트중 실제로 직접 실행해본 소스를 정리한다.http://deeplearning.net/software_links/ CuDNN : Theano : ConvNet :Torch :Caffe : RNNLM : C++로 되어있음, 윈도우 환경에서 실행이 안되는 것으로 판단됨. 우분투에서 실행해야한다는 이야기를 들음. 코드는 약간 분석하기 힘들어 보이나, 전체적으로 간결한 편임. http://www.fit.vutbr.cz/~kombrink/personal/rnn-kaldi/ RNNLIB : RNN이 구현된 몇안되는 라이브러리. 마찬가지로 리눅스 기반으로 보이며 LSTM, Bidrectional LSTM, Multidimensional RNN 등등의 알.. 2015. 4. 13.
MCMC, Sampling 예제 C언어를 기준으로 샘플링을 이해해보자 float arbitraryFunction(float x){ return integral(x*10+10,0,x); }이런 임의의 함수가 있다고 하자. 우리는 return integral(x*10+10,0,x); 이 부분을 모르고 있으며 단지 함수를 호출할 수 만 있다. 이상황에서 이 함수가 어떤 분포를 갖는지를 알아내보자. uniformrandom=(rand()/RAND_MAX)*10000; //0~10000사이의 임의 실수 발생 float observed = arbitraryFunction(unformrandom);이런식으로 유니폼 랜덤으로 값을 뽑고 함수에 넣어, 관측되는 값들을 살펴보아서 임의의 함수를 알아내는 것이다 2015. 4. 5.
Support Vector Machine SVM(Support Vector Machine) : 서포트 벡터 머신은 클래시피케이션 문제를 푸는데 쓰이는 매우 강력하고 빠른 알고리즘이다.학계 뿐만이 아니라 산업계에서도 실제 문제를 푸는 데 사용되며 MLP의 느린속도를 보완하며 2006년 이전까지 기계학습의 주류 알고리즘이었다.매우 수학적으로 잘 정리되고 논리적이어서 전처리가 잘된 피쳐가 있을 경우 아직도 최고수준의 성능을 보장한다. 간단히 원리를 이해하면, 2종류의 데이터들이 맵핑되는 공간에서 두 그룹을 나누는 경계선을 찾는데, 이 경계선은 두 데이터와 직선의 거리가 가장 커지는 maximum margin을 찾도록 되어있다. 그런데 어떤 데이터는 전처리를 아무리 잘하여도 직선으로 나눌 수 없는 분포를 이루기도 하는데, 이를 나누기 위해서는 임의의 .. 2015. 4. 3.
3대 작도 문제 부피가 2배인 정육면체 작도하기임의 각도를 3등분하기정사각형과 넓이가 같은 원 그리기. 작도는 4칙연산과 루트를 사용하는 연산들이라고 한다. 그런데 위의 3가지 문제는 이 5가지 연산 이외의 것이 추가로 필요하므로 작도가 불가능하다고 한다. http://cafe.naver.com/geochips/5015 2015. 4. 2.
Projection Matrix, Eigenvector - 프로젝션 메트릭스프로젝션 매트릭스는 위와 같이 생긴 매트릭스를 말한다. (물론 트랜스포즈를 취하거나, 1이 1,1 항에 있어도 상관 없음)프로젝션 메트릭스의 정의는 AP=AP^2=AP^3 ... 을 모두 만족하는 것으로 아무리 곱해도 한번 곱한 것과 같아지는 행렬을 의미한다.즉 어떠한 공간상에 정사영되었기 때문에, 다시 정사영을 하여도 같은 것이다.간단히 생각해보면 a가 0일때의 프로젝션 매트릭스는 (2,2)의 성분만이 남아있는 직선위로 정사영 시킨 것이고, a가 1이라면 마찬가지로 어떠한 직선위에 정사영되어 행렬의 일부 성분만 남는 것을 의미한다.a가 2나 3등의 수 일 경우 각도가 직각이아닌 어떤 임의의 각도를 가진 직선으로 정사영시키는 것이라고 볼 수 있다. http://en.wikipedia... 2015. 4. 1.
Markov Random Field, MRF 인공지능 수업 필기. 마코프 랜덤필드란, 확률그래프 모델로써 맥시멈클릭에 대해 포텐셜펑션-확률테이블같은것 의 곱으로 전체 조인프 프로버블리티를 표현함. 로컬한 분포여러개로 전체분포를 표현한다. 클릭이란, 풀리커넥티드된 그룹을 의미함. 맥시멈클릭은 중복이 없는 최대크기의 그룹을 의미 확률그래프 모델-다이렉티드 그래프:베이지안 네트워크-언다이렉티드 그래프:마코프 랜덤필드 응용예시노이즈가 생긴 이미지에서 원본 이미지를 복원해내는 일이 역시 베이지안 쎄오렘-포스테리어공식으로 표현할 수 있다.y가 트루이미지, x가 관찰이미지p(y|x)=p(x|y)*p(y)/p(x) 위식에서 풀베이지안은 베이지안식에서 노멀라이즈 텀인 p(x) , 에비던스 확률분포를 고려한것. 세상읳모든데이터의 확률분포를 구해야함. p(x)를 안구.. 2015. 3. 26.
머신러닝의 응용사례 베이지안네트워크 : 인과 관계의 추론, 이런 일이 얼마나 가능할법한 일인가를 추정해봄. ex) 신용카드 사용시 도난여부 판단 마르코프 랜덤 필드 : 변수간의 조건부독립을 도입, 주변의 변수로부터 값을 추론 ex) 이미지 프로세싱 베이지안 어프로치 : 사전지식을 이용한 확률초기값과 데이터관측 후의 확률을 모두 고려 ex) 의사가 폐렴환자를 진단함. 진찰하기전에 이러한 시기에는 몇프로의 폐렴이 있더라 - 프라이어확률 / 환자를 직접관찰했더니 피를 토하더라 - 라이클리 후드 2015. 3. 24.