Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- json
- linux
- deeplearning
- pip
- Statistics
- machinelearning
- git
- text
- paper_review
- cs224n
- gensim
- natural_language_processing
- tab
- nlp
- Standford
- install
- terminal
- Vim
- language_model
- slideshare
- Stanford
- github
- error
- seq2seq
- computer_setting
- review
- Ai
- cs231n
- code
- computer
Archives
- Today
- Total
목록cs224n (2)
NLP/AI/Statistics
[cs224n] Lecture 1: Word Vector 1
번역기, 음성인식 등 자연어처리를 이용한 기술들이 일상생활에서 중요한 역할들을 수행하면서 자연어처리 기술이 발전하고 있다. 자연어처리에서 가장 기본이 되는 임베딩에 대한 설명이 우선되는데, 각 언어, 단어들을 컴퓨터적으로 어떻게 표현할 것이고 그들 간의 문맥을 어떻게 처리할 것인지가 중요한 요인이 된다. 가장 기본적으로 수행되었던 방법은 one-hot encoding이다. one-hot encoding은 해당 단어가 속하는 위치 값이 1, 나머지가 0으로 나타내어 해당 인덱스 값이 해당 단어를 의미하도록 한다. 하지만 이러한 방법은 벡터의 크기가 vocabulary 사이즈에 의존적이기 때문에 vocabulary 사이즈가 클수록 벡터의 크기가 늘어나는 문제가 발생한다. 또한, 이는 단어 간의 유사성을 고려..