Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- error
- cs224n
- json
- natural_language_processing
- language_model
- install
- nlp
- computer_setting
- pip
- paper_review
- git
- Stanford
- slideshare
- Vim
- linux
- seq2seq
- gensim
- computer
- review
- deeplearning
- tab
- github
- machinelearning
- Standford
- Ai
- text
- code
- cs231n
- Statistics
- terminal
Archives
- Today
- Total
NLP/AI/Statistics
한국어 데이터셋 본문
자연어처리의 많은 task에서 활용되는 데이터, 혹은 대용량 말뭉치에 대하여 소개한다.
1) NSMC
2) Wikipedia
3) KorQuAD
4) AI-Hub
5) 세종 말뭉치
6) KCC 뉴스 데이터
7) 이외의 오픈 데이터셋
1) NSMC: 네이버 영화평 데이터 (긍정/부정) - 이진 분류 task
2) Wikipedia: 한국어 위키백과의 문서 데이터
3) KorQuAD: 한국어 QA 데이터셋
4) AI-Hub: task 별 데이터셋 (한국어-영어 번역 말뭉치, 한국어 대화 데이터셋, 음성 데이터셋, 기계독해 등)
> 텍스트 이외에 이미지, 영상 등에 대한 데이터셋도 공개하고 있다.
5) 세종 말뭉치: 국립국어원에서 제공하는 한국어 대용량 말뭉치
ithub.korean.go.kr/user/guide/corpus/guide1.do
아래의 github에서 쉽게 다운로드할 수 있다.
6) KCC: 뉴스 기사 한국어 대용량 말뭉치
> 데이터 크기와 형태에 따라 KCC150, KCCq28, KCC940, KCC460의 데이터가 공개되어 있다.
7) 이외의 오픈 데이터셋
> 아래의 github에서 한국어 데이터셋에 대하여 다양한 데이터를 소개하고 있다.
github.com/songys/AwesomeKorean_Data
'NLP' 카테고리의 다른 글
Smoothing 기법: Laplace(add-one) smoothing, Back-off smoothing (0) | 2020.10.06 |
---|---|
Language Model: N-gram 언어모델 (0) | 2020.09.29 |
Language Model: 통계적 언어 모델 (0) | 2020.09.29 |
Tokenization: 어절, 형태소, 음절, 자모 단위 토큰화 (0) | 2020.09.22 |
Natural Language Processing (0) | 2020.09.22 |
Comments