본문 바로가기
Research/Deep Learning & Application

RNN의 Vanishing Gradient와 Exploding Gradient

by 곽동현 IMCOMKING 2015. 7. 8.

Spectral radius : 아이겐 벨류의 절대값중 가장 큰 것

https://en.wikipedia.org/wiki/Spectral_radius


RNN의 gradient가 0에 가깝게 사라저기나, 폭발적으로 발산하는 이유는 hidden to hidden Weight가 time unfolding을 하는 bptt의 과정에서 반복해서 곱해지기 때문이라고 한다. 만약 이 weight의 spectral radius가 1보다 작으면 결국엔 vanishing을 하게 되고, 1보다 크면 exploding을 하게 된다.


이를 해결하기 위해 L1, L2 norm regularization을 weight에 적용하여 exploding을 막거나 하는 방법 등이 사용된다.

그러나 gradient vansihing 문제는 해결하기가 어려운데, 이에 대한 해결로 LSTM이 제안되었다.

이에 대한 자세한 원리는 아래의 동영상을 참고하기 바란다.


LSTM variants : https://www.youtube.com/watch?v=SoHCawtIE_Y


Pascanu, Razvan, Tomas Mikolov, and Yoshua Bengio. "On the difficulty of training recurrent neural networks." arXiv preprint arXiv:1211.5063 (2012).

댓글0