728x90 반응형 Gradient Exploding1 [Pytorch] Gradient Vanishing & Exploding 막는 방법 많은 layers를 가진 Neural Network을 학습할 때, Backpropagation 과정에서 input층으로 갈수록 Gradient가 점점 소멸되는 현상을 Gradient Vanishing. → Weight가 업데이트가 잘 이루어지지 않아서 최적의 모델을 만들어낼 수 없다. → 이번엔 Gradient Vanishing과 그 반대인 Exploding 현상 방지법에 대해 공부! 1. ReLU function 앞서 공부한 내용이므로 조금 복습하면, Sigmoid 함수를 Activation function으로 사용할 경우, 양끝단(입력의 절대값이 큰 경우)에 output이 0 혹은 1에 수렴하면서 기울기(Gradient)가 0에 가까워지는 현상이 발생한다. - 이 때, input측으로 갈수록 제대로 .. AI |Computer Vision/Basic Pytorch 2022. 6. 4. 더보기 ›› 반응형 이전 1 다음