목록기울기 소실 (1)
Note
Gradient Vanishing & Exploding
역전파 과정에서 입력층으로 갈수록 기울기가 점차적으로 작아지는 현상이 발생할 수 있다. 입력층에 가까워질수록 가중치 업데이트가 잘 이루어지지 않는 것을 기울기 소실 ( Gradient Vanishing ) 이라고 한다. 반대의 경우를 기울기 폭주 ( Exploding ) 라고한다. 1. ReLU와 Leaky ReLU 시그모이드 함수를 사용할 때, 역전파 과정에서 기울기가 점차 사라져 제대로 작동하지 않는 기울기 소실이 발생할 수 있다. 1) 은닉층의 활성화 함수로 시그모이드를 사용하지 않는다. 2) Leaky ReLU를 사용하면 모든 입력값에 대해 기울기가 0에 수렴하지 않는다. 2. 그래디언트 클리핑 ( Gradient Clipping ) 기울기 값을 임계값이 넘지 않도록 잘라내어 임계치만큼 크기를 감..
Machine Learning
2021. 9. 15. 01:00