일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- Standford
- json
- error
- tab
- nlp
- seq2seq
- pip
- paper_review
- github
- Statistics
- computer
- Ai
- deeplearning
- Stanford
- code
- terminal
- git
- cs231n
- cs224n
- linux
- text
- install
- Vim
- review
- computer_setting
- machinelearning
- gensim
- natural_language_processing
- slideshare
- language_model
- Today
- Total
목록seq2seq (2)
NLP/AI/Statistics

앞서 Seq2Seq에 대하여 설명했다. Seq2Seq는 encoder, decoder 개념을 사용하여 입력 시퀀스를 압축하고 출력 시퀀스를 생성하는 모델이다. 이는 기계번역 task에서 주로 사용되지만, encoder에서 일정 크기로 모든 시퀀스 정보를 압축하여 표현하려고 하기 때문에 정보손실이 발생하는 문제가 있다. 이러한 문제를 보완하고자 Attention 모델이 제안되었다. Attention 모델은 decoder가 단순히 encoder의 압축된 정보만을 받아 예측 시퀀스를 출력하는 것이 아니라, decoder가 출력되는 시점마다 encoder에서의 전체 입력 문장을 한번더 검토하도록 한다. 이 때 decoder는 encoder의 모든 입력 시퀀스를 동일한 가중치로 받아들이지 않고, 중요한 단어에 대..

Sequence to sequence 모델은 seq2seq로도 불리기 때문에 앞으로의 글에서 sequence to sequence 모델을 seq2seq로 칭하기로 한다. seq2seq는 흔히 기계번역, 챗봇, 요약 등과 같이 입력 시퀀스로부터 출력 시퀀스를 내보내는 모델이다. 즉, 연속된 한국어 문장을 모델에 입력하여 학습한 뒤, 연속된 영어 문장을 출력하는 기계번역의 형태이거나 질문을 모델에 입력하여 학습한 뒤, 답변을 출력하는 QA의 형태로 활용된다. 여기에서 입력 문장은 인코더(encoder)에 입력되고 출력 문장은 디코더(decoder)로부터 출력된다. 이를 도식화하면 다음과 같다. #. 인코더(encoder): 연속된 입력 문장을 이용하여 context vector를 구성 #. 디코더(decod..