일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- github
- cs231n
- natural_language_processing
- install
- gensim
- git
- nlp
- Stanford
- seq2seq
- slideshare
- json
- Vim
- text
- computer_setting
- paper_review
- tab
- Statistics
- machinelearning
- Standford
- linux
- review
- terminal
- language_model
- error
- deeplearning
- code
- Ai
- computer
- cs224n
- pip
- Today
- Total
목록NLP (14)
NLP/AI/Statistics
언어 모델(language model)은 토큰들의 조합으로 가장 자연스러운 문장을 만들기 위해 연속된 각 토큰에 확률을 할당하는 것이다. 즉, 연속된 토큰들의 확률을 이용하여 특정 단어 이후에 나올 토큰을 예측함으로써 가장 자연스러운 문장이 생성되도록 한다. (이 때 토큰은 음절, 단어, 형태소 등등으로 활용이 가능하며, 기본적으로 '단어'를 사용하기 때문에 본 글에서는 '토큰' 대신 '단어'라는 용어를 사용하여 설명한다.) 언어 모델과 같이 연속된 단어에 확률을 할당하는 것은 자연어처리 task에서 중요한 역할을 한다. 이는 기계번역, 오타 교정, 음성 인식 등의 task에서 가장 유사하고, 가장 높은 확률의 텍스트를 생성하도록 한다. 기본적으로 언어 모델은 조건부 확률을 이용하여 문장생성확률을 구하는..

텍스트를 처리하기 이전에, 처리하고자 하는 토큰의 단위를 정의하는 것은 중요하다. 텍스트를 어떤 토큰의 단위로 분할하냐에 따라 단어 집합의 크기, 단어 집합이 표현하는 토큰의 형태가 다르게 나타나며 이는 모델의 성능을 좌지우지하기도 한다. 이처럼 텍스트를 토큰의 단위로 분할하는 작업을 토큰화(tokenization)라고 한다. > 어절(단어) 기본적으로 자연어처리에서는 어절(단어) 단위로 구분한다. 예를 들어, "나는 학교에 간다" 라는 문장을 어절 단위로 토큰화하면, [나는, 학교에, 간다]와 같이 띄어쓰기 기준으로 문장이 분할된다. 이를 어절 단위 토큰화라고 한다. > 형태소 (KoNLPy, KLT2000) (형태소: 의미가 있는 가장 작은 말의 단위) 한국어는 교착어의 특성으로, 하나의 단어가 여러..
자연어처리의 많은 task에서 활용되는 데이터, 혹은 대용량 말뭉치에 대하여 소개한다. 1) NSMC 2) Wikipedia 3) KorQuAD 4) AI-Hub 5) 세종 말뭉치 6) KCC 뉴스 데이터 7) 이외의 오픈 데이터셋 1) NSMC: 네이버 영화평 데이터 (긍정/부정) - 이진 분류 task github.com/e9t/nsmc e9t/nsmc Naver sentiment movie corpus. Contribute to e9t/nsmc development by creating an account on GitHub. github.com 2) Wikipedia: 한국어 위키백과의 문서 데이터 ko.wikipedia.org/wiki/%EC%9C%84%ED%82%A4%EB%B0%B1%EA%B3%..
자연어처리는 텍스트 데이터를 처리하는 연구이다. NLP 파트에서는 크게 아래와 같이 설명할 예정이다. 1) 텍스트를 처리하는 방법 2) 자연어처리에서 활용되는 인공지능 모델 3) 자연어처리에서 주된 Task 1)번의 텍스트를 처리하는 방법은 주로 임베딩(embedding)에 관한 설명일 것으로 예상되며, 임베딩을 위한 Bag of Words 부터, TF-IDF, Word2Vec 등에 대하여 설명한다. 2)번의 자연어처리에서 활용되는 인공지능 모델은 특히나 최근에 각광받고 있는 인공지능에서의 자연어처리에 대하여 설명할 예정이고, 인공지능에서의 주된 자연어처리 기술인 RNN, LSTM, BERT 등에 대하여 정리한다. 3)번의 자연어처리에서 주된 Task에 대한 설명은 아마 2번의 모델 설명과 함께 언급될 ..