일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Stanford
- code
- json
- natural_language_processing
- pip
- text
- terminal
- computer_setting
- install
- machinelearning
- Statistics
- nlp
- slideshare
- language_model
- tab
- Ai
- Vim
- review
- error
- computer
- github
- linux
- Standford
- seq2seq
- cs231n
- deeplearning
- paper_review
- cs224n
- gensim
- git
- Today
- Total
NLP/AI/Statistics
[cs231n] Note 6: Neural Network-2 (Regularization) 본문
[cs231n] Note 6: Neural Network-2 (Regularization)
Danbi Cho 2021. 4. 26. 14:54딥러닝 모델에서 학습 데이터가 모델에 과적합되어 새로운 데이터에 대하여 제대로 예측하지 못하는 문제가 발생한다.
이러한 과적합 (overfitting) 문제를 해결하기 위한 방법으로 regularization (규제화)을 소개하고자 한다.
L1 regularization
기존의 Loss function 값이 $L(y_{i}, \hat{y_{i}})$이라고 할 때,
L1 regularization은 아래의 식과 같이 loss function에 새로운 "규제항"을 추가하여 계산한다.
$$Loss = \frac{1}{n}\sum_{i=1}^{n}{L(y_{i}, \hat{y_{i}}) + \lambda |w|}$$
여기서 집중해야할 부분은 L1에서는 가중치(w)의 절댓값을 추가하여 loss 값에 규제를 더해준다는 것이다.
또한, 식에서 사용되는 $\lambda$는 얼만큼 규제를 가할 것인지에 대한 비중이라고 생각할 수 있다.
즉, $\lambda$ 값이 0에 가까울수록 (작을수록) 규제를 조금만 가하고, 클수록 규제를 많이 가한다는 의미이다.
L1 regularization은 가중치에 절댓값을 씌우기 때문에 벡터가 sparse해지도록 하는 특성이 있기 때문에 노이즈에 강건하다.
L2 regularization
$$Loss = \frac{1}{n}\sum_{i=1}^{n}{L(y_{i}, \hat{y_{i}}) + \frac{\lambda}{2}w^{2}}$$
L2 regularization은 L1에서 가중치 $w$에 절댓값을 씌우는 것과 달리, $w$를 제곱하여 계산한다.
이 역시 L1과 같이 가중치가 너무 커지지 않도록 규제하는 역할을 가지고 있으며 weight decay라고도 한다.
#. L1의 규제항인 $\lambda|w|$와 L2의 규제항 $\frac{\lambda}{2}w^{2}$을 모두 적용시킨 방법을 elastic net (L1+L2)라고 하며 아래와 같이 계산된다.
$$Loss = \frac{1}{n}\sum_{i=1}^{n}(L(y_{i}, \hat{y_{i}}) + \lambda|w| + \frac{\lambda}{2}w^{2}$$
또다른 방법으로 Dropout이 있다.
Dropout 은 파라미터로 지정된 값의 확률만큼 뉴런을 비활성화시켜 학습에서 생략하도록 하는 방법이다.
흔히 파라미터는 0.5로 지정되어 절반은 학습에 사용하고 절반은 학습하지 않도록 한다.
이 때 비활성화되는 뉴런은 랜덤하게 적용된다.
참고) https://cs231n.github.io/neural-networks-2/#reg
https://light-tree.tistory.com/125
'Stanford Lectures : AI > CS231n' 카테고리의 다른 글
[cs231n] Note 6: Neural Network-2 (Batch Normalization) (0) | 2021.04.15 |
---|---|
[cs231n] Note 6: Neural Network-2 (Weight Initialization) (0) | 2021.03.30 |
[cs231n] Note 6: Neural Network-2 (Data Processing) (0) | 2021.03.24 |
[cs231n] Note 5: Neural Networks-1 (Activation function) (0) | 2021.02.08 |
[cs231n] Note 3: Optimization (Gradient Descent) (0) | 2021.01.12 |