일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- language_model
- deeplearning
- review
- computer
- machinelearning
- paper_review
- tab
- Stanford
- error
- natural_language_processing
- nlp
- computer_setting
- slideshare
- text
- Statistics
- Vim
- github
- gensim
- install
- code
- seq2seq
- linux
- Standford
- cs231n
- pip
- Ai
- git
- terminal
- json
- cs224n
- Today
- Total
목록Stanford Lectures : AI/CS231n (14)
NLP/AI/Statistics
딥러닝 모델에서 학습 데이터가 모델에 과적합되어 새로운 데이터에 대하여 제대로 예측하지 못하는 문제가 발생한다. 이러한 과적합 (overfitting) 문제를 해결하기 위한 방법으로 regularization (규제화)을 소개하고자 한다. L1 regularization 기존의 Loss function 값이 $L(y_{i}, \hat{y_{i}})$이라고 할 때, L1 regularization은 아래의 식과 같이 loss function에 새로운 "규제항"을 추가하여 계산한다. $$Loss = \frac{1}{n}\sum_{i=1}^{n}{L(y_{i}, \hat{y_{i}}) + \lambda |w|}$$ 여기서 집중해야할 부분은 L1에서는 가중치(w)의 절댓값을 추가하여 loss 값에 규제를 더해준..
이번 글에서는 Batch Normalization에 대하여 소개하고자 한다. Batch normalization (BN, 배치 정규화)는 가우시안 분포를 통해 신경망을 적절하게 초기화시키는 방법이다. BN은 레이어에서 출력되는 batch 사이즈 만큼의 activation을 가우시안 분포에 적합하도록 하는 것이 목적이다. 그래서 이 방법은 학습할 때마다 각 레이어에서 수행되어야 하며 모든 레이어에서 가우시안 분포가 되도록 해준다. 즉, batch 단위로 레이어의 입력 값들을 정규화해준다. 위는 cs231n의 슬라이드 일부이다. 위의 수식과 같이 BN은 D차원의 batch에 대하여 각 feature 별로 평균과 분산을 구하여 정규화시켜주는 방식으로 진행된다. 보통 BN는 신경망 구조 내에서 fully con..
Neural network 2 에서는 데이터를 처리하고 모델을 설계하는 방법에 대하여 설명한다. 1. Data Processing 2. Weight Initialization 3. Batch Normalization 4. Regularization 위의 순서대로 정리할 예정이다. Data Processing은 말 그대로 데이터를 전처리하는 과정으로 볼 수 있다. 어떤 task를 수행하기 위한 데이터가 있을 때, 데이터 간의 분포가 다를 수도 있고 데이터 내의 이상치들이 많이 존재할 수 있다. 이럴 경우, 데이터 간의 차이로 인해 학습이 제대로 수행되지 않거나 이상치에 의해 학습에 노이즈가 발생하는 문제가 발생한다. 이를 처리해주기 위해 데이터를 전처리함으로써 모델이 데이터에 대한 학습을 충분히할 수 있도..
신경망 구조를 이해하기 위해 중요한 요소인 activation function에 대하여 소개한다. Activation function (활성화 함수)은 쉽게 말해 모델 학습을 통해 출력되는 값을 활성화시키는 것을 의미하며 모델 최적화를 위해 가중치 (weight)를 업데이트한 후, 최종적으로 어떠한 값을 출력할 것인가를 결정하는 역할을 한다고 할 수 있다. 위와 같이 $w_{i}x_{i}+b$ 연산으로 출력되는 마지막 층의 output에 activation function을 거쳐 출력값을 결정한다. Perceptron에서는 가장 기초적인 activation function으로 step function과 linear function을 사용하였다. Step function의 경우, 계단 형식으로 0 혹은 1..
이전 글에서 이미지 분류 문제를 처리하기 위해 가장 중요한 개념인 score function과 loss function에 대해 설명하였다. loss function을 정의하는 과정에서 $f(x_{i}, W)$의 선형 함수를 사용하였는데, 이 때 사용되는 파라미터인 $W$가 어떻게 설정되고, 어떻게 학습되는지는 모델 학습에 중요한 요인이었다. 이를 위해 최적화 과정이 필요하다. 최적화(optimization)는 loss function을 최소화하는 최적의 파라미터 $W$를 찾는 과정을 의미한다. 최적화 방법에 대하여 이해하게 되면, score function, loss function, optimization 간의 상관관계를 이해할 수 있을 것이며, 이후에 설명하게 될 신경망 구조에 대하여 이해하기 쉬울 ..
머신러닝, 딥러닝과 같은 인공지능 연구에서는 두 가지 중요한 요소에 대한 이해가 필요하다. 1. Score function 2. Loss function 학습 데이터로 모델을 학습하고 평가 데이터로 학습된 모델을 평가하는 과정에서 해당 평가 결과에 대한 성능을 측정하는 성능 지표로써의 score function과 예측 결과와 실제 결과의 차이를 의미하는 loss function에 대한 개념이 나타난다. 특히, loss function에서는 모델의 최적점을 찾아 예측 값과 실제 값의 차이인 loss를 최소화하는 것을 목적으로 모델 학습을 진행해야하기 때문에 이에 대한 이해가 중요하다. > Parameterized mapping from images to label scores 우선 이번 글에서는 score..