일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- seq2seq
- pip
- language_model
- computer_setting
- Statistics
- slideshare
- terminal
- cs224n
- json
- text
- deeplearning
- nlp
- paper_review
- computer
- error
- linux
- review
- natural_language_processing
- cs231n
- Stanford
- install
- machinelearning
- tab
- gensim
- git
- code
- Vim
- github
- Ai
- Standford
- Today
- Total
목록분류 전체보기 (90)
NLP/AI/Statistics
Neural network 2 에서는 데이터를 처리하고 모델을 설계하는 방법에 대하여 설명한다. 1. Data Processing 2. Weight Initialization 3. Batch Normalization 4. Regularization 위의 순서대로 정리할 예정이다. Data Processing은 말 그대로 데이터를 전처리하는 과정으로 볼 수 있다. 어떤 task를 수행하기 위한 데이터가 있을 때, 데이터 간의 분포가 다를 수도 있고 데이터 내의 이상치들이 많이 존재할 수 있다. 이럴 경우, 데이터 간의 차이로 인해 학습이 제대로 수행되지 않거나 이상치에 의해 학습에 노이즈가 발생하는 문제가 발생한다. 이를 처리해주기 위해 데이터를 전처리함으로써 모델이 데이터에 대한 학습을 충분히할 수 있도..
신경망 구조를 이해하기 위해 중요한 요소인 activation function에 대하여 소개한다. Activation function (활성화 함수)은 쉽게 말해 모델 학습을 통해 출력되는 값을 활성화시키는 것을 의미하며 모델 최적화를 위해 가중치 (weight)를 업데이트한 후, 최종적으로 어떠한 값을 출력할 것인가를 결정하는 역할을 한다고 할 수 있다. 위와 같이 $w_{i}x_{i}+b$ 연산으로 출력되는 마지막 층의 output에 activation function을 거쳐 출력값을 결정한다. Perceptron에서는 가장 기초적인 activation function으로 step function과 linear function을 사용하였다. Step function의 경우, 계단 형식으로 0 혹은 1..
이전 글에서 이미지 분류 문제를 처리하기 위해 가장 중요한 개념인 score function과 loss function에 대해 설명하였다. loss function을 정의하는 과정에서 $f(x_{i}, W)$의 선형 함수를 사용하였는데, 이 때 사용되는 파라미터인 $W$가 어떻게 설정되고, 어떻게 학습되는지는 모델 학습에 중요한 요인이었다. 이를 위해 최적화 과정이 필요하다. 최적화(optimization)는 loss function을 최소화하는 최적의 파라미터 $W$를 찾는 과정을 의미한다. 최적화 방법에 대하여 이해하게 되면, score function, loss function, optimization 간의 상관관계를 이해할 수 있을 것이며, 이후에 설명하게 될 신경망 구조에 대하여 이해하기 쉬울 ..
앞서 Seq2Seq에 대하여 설명했다. Seq2Seq는 encoder, decoder 개념을 사용하여 입력 시퀀스를 압축하고 출력 시퀀스를 생성하는 모델이다. 이는 기계번역 task에서 주로 사용되지만, encoder에서 일정 크기로 모든 시퀀스 정보를 압축하여 표현하려고 하기 때문에 정보손실이 발생하는 문제가 있다. 이러한 문제를 보완하고자 Attention 모델이 제안되었다. Attention 모델은 decoder가 단순히 encoder의 압축된 정보만을 받아 예측 시퀀스를 출력하는 것이 아니라, decoder가 출력되는 시점마다 encoder에서의 전체 입력 문장을 한번더 검토하도록 한다. 이 때 decoder는 encoder의 모든 입력 시퀀스를 동일한 가중치로 받아들이지 않고, 중요한 단어에 대..