Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- Statistics
- code
- gensim
- pip
- computer_setting
- natural_language_processing
- machinelearning
- error
- cs231n
- github
- git
- review
- language_model
- terminal
- computer
- cs224n
- Ai
- deeplearning
- text
- Standford
- tab
- paper_review
- json
- install
- slideshare
- seq2seq
- Stanford
- linux
- nlp
- Vim
Archives
- Today
- Total
목록NLP (14)
NLP/AI/Statistics
Tokenization: 어절, 형태소, 음절, 자모 단위 토큰화
텍스트를 처리하기 이전에, 처리하고자 하는 토큰의 단위를 정의하는 것은 중요하다. 텍스트를 어떤 토큰의 단위로 분할하냐에 따라 단어 집합의 크기, 단어 집합이 표현하는 토큰의 형태가 다르게 나타나며 이는 모델의 성능을 좌지우지하기도 한다. 이처럼 텍스트를 토큰의 단위로 분할하는 작업을 토큰화(tokenization)라고 한다. > 어절(단어) 기본적으로 자연어처리에서는 어절(단어) 단위로 구분한다. 예를 들어, "나는 학교에 간다" 라는 문장을 어절 단위로 토큰화하면, [나는, 학교에, 간다]와 같이 띄어쓰기 기준으로 문장이 분할된다. 이를 어절 단위 토큰화라고 한다. > 형태소 (KoNLPy, KLT2000) (형태소: 의미가 있는 가장 작은 말의 단위) 한국어는 교착어의 특성으로, 하나의 단어가 여러..