Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- text
- natural_language_processing
- gensim
- seq2seq
- cs231n
- Standford
- computer_setting
- slideshare
- Statistics
- code
- github
- review
- pip
- tab
- Ai
- Stanford
- terminal
- git
- nlp
- json
- error
- computer
- machinelearning
- cs224n
- Vim
- language_model
- paper_review
- deeplearning
- linux
- install
Archives
- Today
- Total
NLP/AI/Statistics
한국어 데이터셋 본문
자연어처리의 많은 task에서 활용되는 데이터, 혹은 대용량 말뭉치에 대하여 소개한다.
1) NSMC
2) Wikipedia
3) KorQuAD
4) AI-Hub
5) 세종 말뭉치
6) KCC 뉴스 데이터
7) 이외의 오픈 데이터셋
1) NSMC: 네이버 영화평 데이터 (긍정/부정) - 이진 분류 task
2) Wikipedia: 한국어 위키백과의 문서 데이터
3) KorQuAD: 한국어 QA 데이터셋
4) AI-Hub: task 별 데이터셋 (한국어-영어 번역 말뭉치, 한국어 대화 데이터셋, 음성 데이터셋, 기계독해 등)
> 텍스트 이외에 이미지, 영상 등에 대한 데이터셋도 공개하고 있다.
5) 세종 말뭉치: 국립국어원에서 제공하는 한국어 대용량 말뭉치
ithub.korean.go.kr/user/guide/corpus/guide1.do
아래의 github에서 쉽게 다운로드할 수 있다.
6) KCC: 뉴스 기사 한국어 대용량 말뭉치
> 데이터 크기와 형태에 따라 KCC150, KCCq28, KCC940, KCC460의 데이터가 공개되어 있다.
7) 이외의 오픈 데이터셋
> 아래의 github에서 한국어 데이터셋에 대하여 다양한 데이터를 소개하고 있다.
github.com/songys/AwesomeKorean_Data
'NLP' 카테고리의 다른 글
Smoothing 기법: Laplace(add-one) smoothing, Back-off smoothing (0) | 2020.10.06 |
---|---|
Language Model: N-gram 언어모델 (0) | 2020.09.29 |
Language Model: 통계적 언어 모델 (0) | 2020.09.29 |
Tokenization: 어절, 형태소, 음절, 자모 단위 토큰화 (0) | 2020.09.22 |
Natural Language Processing (0) | 2020.09.22 |
Comments