[cs231n] Note 6: Neural Network-2 (Regularization)

Notice

Recent Posts

Recent Comments

Link

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

Today

Total

관리 메뉴

NLP/AI/Statistics

[cs231n] Note 6: Neural Network-2 (Regularization) 본문

Stanford Lectures : AI/CS231n

[cs231n] Note 6: Neural Network-2 (Regularization)

Danbi Cho 2021. 4. 26. 14:54

딥러닝 모델에서 학습 데이터가 모델에 과적합되어 새로운 데이터에 대하여 제대로 예측하지 못하는 문제가 발생한다.

이러한 과적합 (overfitting) 문제를 해결하기 위한 방법으로 regularization (규제화)을 소개하고자 한다.

L1 regularization

기존의 Loss function 값이 $L(y_{i}, \hat{y_{i}})$이라고 할 때,

L1 regularization은 아래의 식과 같이 loss function에 새로운 "규제항"을 추가하여 계산한다.

$$Loss = \frac{1}{n}\sum_{i=1}^{n}{L(y_{i}, \hat{y_{i}}) + \lambda |w|}$$

여기서 집중해야할 부분은 L1에서는 가중치(w)의 절댓값을 추가하여 loss 값에 규제를 더해준다는 것이다.

또한, 식에서 사용되는 $\lambda$는 얼만큼 규제를 가할 것인지에 대한 비중이라고 생각할 수 있다.

즉, $\lambda$ 값이 0에 가까울수록 (작을수록) 규제를 조금만 가하고, 클수록 규제를 많이 가한다는 의미이다.

L1 regularization은 가중치에 절댓값을 씌우기 때문에 벡터가 sparse해지도록 하는 특성이 있기 때문에 노이즈에 강건하다.

L2 regularization

$$Loss = \frac{1}{n}\sum_{i=1}^{n}{L(y_{i}, \hat{y_{i}}) + \frac{\lambda}{2}w^{2}}$$

L2 regularization은 L1에서 가중치 $w$에 절댓값을 씌우는 것과 달리, $w$를 제곱하여 계산한다.

이 역시 L1과 같이 가중치가 너무 커지지 않도록 규제하는 역할을 가지고 있으며 weight decay라고도 한다.

#. L1의 규제항인 $\lambda|w|$와 L2의 규제항 $\frac{\lambda}{2}w^{2}$을 모두 적용시킨 방법을 elastic net (L1+L2)라고 하며 아래와 같이 계산된다.

$$Loss = \frac{1}{n}\sum_{i=1}^{n}(L(y_{i}, \hat{y_{i}}) + \lambda|w| + \frac{\lambda}{2}w^{2}$$

또다른 방법으로 Dropout이 있다.

Dropout 은 파라미터로 지정된 값의 확률만큼 뉴런을 비활성화시켜 학습에서 생략하도록 하는 방법이다.

흔히 파라미터는 0.5로 지정되어 절반은 학습에 사용하고 절반은 학습하지 않도록 한다.

이 때 비활성화되는 뉴런은 랜덤하게 적용된다.

참고) https://cs231n.github.io/neural-networks-2/#reg

CS231n Convolutional Neural Networks for Visual Recognition

Table of Contents: Setting up the data and the model In the previous section we introduced a model of a Neuron, which computes a dot product following a non-linearity, and Neural Networks that arrange neurons into layers. Together, these choices define the

cs231n.github.io

https://light-tree.tistory.com/125

딥러닝 용어 정리, L1 Regularization, L2 Regularization 의 이해, 용도와 차이 설명

제가 공부하고 정리한 것을 나중에 다시 보기 위해 적는 글입니다. 제가 잘못 설명한 내용이 있다면 알려주시길 부탁드립니다. 사용된 이미지들의 출처는 본문에 링크로 나와 있거나 글의 가장

light-tree.tistory.com

'Stanford Lectures : AI > CS231n' 카테고리의 다른 글

[cs231n] Note 6: Neural Network-2 (Batch Normalization) (0)	2021.04.15
[cs231n] Note 6: Neural Network-2 (Weight Initialization) (0)	2021.03.30
[cs231n] Note 6: Neural Network-2 (Data Processing) (0)	2021.03.24
[cs231n] Note 5: Neural Networks-1 (Activation function) (0)	2021.02.08
[cs231n] Note 3: Optimization (Gradient Descent) (0)	2021.01.12

'Stanford Lectures : AI/CS231n' Related Articles

Comments

NLP/AI/Statistics

[cs231n] Note 6: Neural Network-2 (Regularization) 본문

[cs231n] Note 6: Neural Network-2 (Regularization)

'Stanford Lectures : AI > CS231n' 카테고리의 다른 글

티스토리툴바