NLP/AI/Statistics

Notice

Recent Posts

Recent Comments

Link

« 2024/05 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록전체 글 (90)

NLP/AI/Statistics

Git 코드 요약 정리

[git 생성 및 가져오기] - git init: git 생성하기 - git clone git_path: 코드 가져오기 [공동 작업 시 브랜치 사용] - git checkout branch_name: 브랜치 선택하기 - git checkout -t remote_path/branch_name: 원격 브랜치 선택하기 - git branch branch_name: 브랜치 생성하기 - git branch -r: 원격 브랜치 목록보기 - git branch -a: 로컬 브랜치 목록보기 - git branch -m branch_name change_branch_name: 브랜치 이름 바꾸기 - git branch -d branch_name: 브랜치 삭제하기 - git push remote_name--delete b..

Git

Git 개념

Git 이란? git은 source(코드, 데이터 등) 관리하기 이후나 분산 버전 관리 시스템이다. 기본적으로 리눅스 개발용으로 사용되지만 윈도우버전에서도 이용이 편리하게 변했다고 한다. 코드를 버전 관리하기 위해 사용되기 때문에 코드에 버그 발생 시, 수정이 필요한 코드만 확인하거나, 또는 이전에 수정했던 코드만 파악하여 코드 작업을 할 수 있도록 하는 이점이 있다. Github 주소 >> github.com/ git을 사용하기 위한 툴로는 SourceTree, GitKraKen, SmartGit 등이 있으며, GUI형식으로 작동되기 때문에 코드의 버전 관리를 눈으로 확인하기에 용이하다. 아직 git이 익숙하지 않기 때문에 항상 검색하고 여러번 시도해보면서 익히는 중이다. "git add > git c..

Git

Tokenization: 어절, 형태소, 음절, 자모 단위 토큰화

텍스트를 처리하기 이전에, 처리하고자 하는 토큰의 단위를 정의하는 것은 중요하다. 텍스트를 어떤 토큰의 단위로 분할하냐에 따라 단어 집합의 크기, 단어 집합이 표현하는 토큰의 형태가 다르게 나타나며 이는 모델의 성능을 좌지우지하기도 한다. 이처럼 텍스트를 토큰의 단위로 분할하는 작업을 토큰화(tokenization)라고 한다. > 어절(단어) 기본적으로 자연어처리에서는 어절(단어) 단위로 구분한다. 예를 들어, "나는 학교에 간다" 라는 문장을 어절 단위로 토큰화하면, [나는, 학교에, 간다]와 같이 띄어쓰기 기준으로 문장이 분할된다. 이를 어절 단위 토큰화라고 한다. > 형태소 (KoNLPy, KLT2000) (형태소: 의미가 있는 가장 작은 말의 단위) 한국어는 교착어의 특성으로, 하나의 단어가 여러..

NLP

한국어 데이터셋

자연어처리의 많은 task에서 활용되는 데이터, 혹은 대용량 말뭉치에 대하여 소개한다. 1) NSMC 2) Wikipedia 3) KorQuAD 4) AI-Hub 5) 세종 말뭉치 6) KCC 뉴스 데이터 7) 이외의 오픈 데이터셋 1) NSMC: 네이버 영화평 데이터 (긍정/부정) - 이진 분류 task github.com/e9t/nsmc e9t/nsmc Naver sentiment movie corpus. Contribute to e9t/nsmc development by creating an account on GitHub. github.com 2) Wikipedia: 한국어 위키백과의 문서 데이터 ko.wikipedia.org/wiki/%EC%9C%84%ED%82%A4%EB%B0%B1%EA%B3%..

NLP

Natural Language Processing

자연어처리는 텍스트 데이터를 처리하는 연구이다. NLP 파트에서는 크게 아래와 같이 설명할 예정이다. 1) 텍스트를 처리하는 방법 2) 자연어처리에서 활용되는 인공지능 모델 3) 자연어처리에서 주된 Task 1)번의 텍스트를 처리하는 방법은 주로 임베딩(embedding)에 관한 설명일 것으로 예상되며, 임베딩을 위한 Bag of Words 부터, TF-IDF, Word2Vec 등에 대하여 설명한다. 2)번의 자연어처리에서 활용되는 인공지능 모델은 특히나 최근에 각광받고 있는 인공지능에서의 자연어처리에 대하여 설명할 예정이고, 인공지능에서의 주된 자연어처리 기술인 RNN, LSTM, BERT 등에 대하여 정리한다. 3)번의 자연어처리에서 주된 Task에 대한 설명은 아마 2번의 모델 설명과 함께 언급될 ..

NLP

Prev 1 ··· 15 16 17 18 Next

목록전체 글 (90)

NLP/AI/Statistics

티스토리툴바