일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- install
- Vim
- review
- natural_language_processing
- Statistics
- json
- github
- nlp
- slideshare
- gensim
- error
- cs224n
- linux
- Stanford
- pip
- computer_setting
- seq2seq
- paper_review
- tab
- text
- cs231n
- code
- git
- computer
- machinelearning
- deeplearning
- terminal
- Standford
- language_model
- Ai
- Today
- Total
목록NLP (14)
NLP/AI/Statistics
앞서 Seq2Seq에 대하여 설명했다. Seq2Seq는 encoder, decoder 개념을 사용하여 입력 시퀀스를 압축하고 출력 시퀀스를 생성하는 모델이다. 이는 기계번역 task에서 주로 사용되지만, encoder에서 일정 크기로 모든 시퀀스 정보를 압축하여 표현하려고 하기 때문에 정보손실이 발생하는 문제가 있다. 이러한 문제를 보완하고자 Attention 모델이 제안되었다. Attention 모델은 decoder가 단순히 encoder의 압축된 정보만을 받아 예측 시퀀스를 출력하는 것이 아니라, decoder가 출력되는 시점마다 encoder에서의 전체 입력 문장을 한번더 검토하도록 한다. 이 때 decoder는 encoder의 모든 입력 시퀀스를 동일한 가중치로 받아들이지 않고, 중요한 단어에 대..
Sequence to sequence 모델은 seq2seq로도 불리기 때문에 앞으로의 글에서 sequence to sequence 모델을 seq2seq로 칭하기로 한다. seq2seq는 흔히 기계번역, 챗봇, 요약 등과 같이 입력 시퀀스로부터 출력 시퀀스를 내보내는 모델이다. 즉, 연속된 한국어 문장을 모델에 입력하여 학습한 뒤, 연속된 영어 문장을 출력하는 기계번역의 형태이거나 질문을 모델에 입력하여 학습한 뒤, 답변을 출력하는 QA의 형태로 활용된다. 여기에서 입력 문장은 인코더(encoder)에 입력되고 출력 문장은 디코더(decoder)로부터 출력된다. 이를 도식화하면 다음과 같다. #. 인코더(encoder): 연속된 입력 문장을 이용하여 context vector를 구성 #. 디코더(decod..
앞에서 기본적인 순환신경망인 RNN(Recurrent Neural Network)에 대하여 설명하였다. RNN이 가지는 장기의존성 문제를 해결하기 위해 LSTM (Long Short-Term Memory) 모델이 소개되었으며, 이번 글에서는 LSTM의 특징과 내부 구조에 대하여 설명한다. LSTM은 간단히 설명하자면, RNN의 변형 구조로써 게이트 메커니즘을 추가한 모델이라고 할 수 있다. RNN의 내부 구조에 입력 게이트, 망각 게이트, 출력 게이트를 추가하여 장기 의존성 문제를 해결하고자 한다. 이러한 LSTM의 구조는 다음의 그림과 같다. 기본적으로 입력층, 은닉층, 출력층이 연속된 시퀀스의 형태인 것은 RNN과 동일하다. 다만, 은닉층에서의 내부구조가 더 복잡하게 설계되어 있는 것을 알 수 있다...
텍스트는 연속된 토큰의 형태로 시퀀스 데이터에 속한다. 이러한 비정형 데이터를 처리하기 위해 가장 유용한 딥러닝 모델을 순환신경망이라고 한다. 순환신경망 모델은 이미지처리에서 주로 사용되는 CNN(Convolutional Neural Network) 모델과 달리 데이터의 연속적인 정보를 저장하여 순차정보를 학습하는 특징이 있으며 입력 시퀀스의 길이를 고정할 필요가 없기 때문에 텍스트를 처리하기에 용이하다는 특징이 있다. 순환신경망의 대표적인 모델로는 Vanilla-RNN (Recurrent Neural Network), LSTM (Long Short-Term Memory), GRU (Gated Recurrent Unit)이 있다. Vanilla-RNN이 흔히 RNN이라고 칭하는 모델을 의미하며, LSTM..