일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- natural_language_processing
- json
- language_model
- Stanford
- cs231n
- paper_review
- terminal
- computer_setting
- text
- linux
- review
- Vim
- cs224n
- computer
- code
- pip
- git
- seq2seq
- deeplearning
- Standford
- install
- Ai
- error
- machinelearning
- tab
- github
- nlp
- Statistics
- slideshare
- gensim
- Today
- Total
목록분류 전체보기 (90)
NLP/AI/Statistics
통계: 특정 집단에 대하여 조사나 실험을 통해 얻어진 수치 즉, 특정 집단을 구성하는 각각의 정보를 하나의 요약된 값으로 표현한 것. 기본적인 예시는 다음과 같다. 서울 시민들의 직업을 통계적 수치로 확인하기 위해 [특정 집단] - [자료수집] - [요약] 의 단계로 조사가 이루어진다. 서울 시민(특정 집단)으로부터 직업을 조사(자료 수집)하고 수집된 자료를 토대로 직업들의 분포를 퍼센트로 확인(요약)하여 정보를 확인할 수 있다. 통계학: 통계를 이용하여 불확실한 현상에 대하여 추정(estimatoin), 검정(testing), 예측(forecasting)하여 합리적인 결과 해석 및 의사결정을 할 수 있도록 돕는 학문 통계학은 불확실한 현상을 자료 수집, 모형 설정, 추론 과정을 통해 정보를 객관화하여 ..
[git 생성 및 가져오기] - git init: git 생성하기 - git clone git_path: 코드 가져오기 [공동 작업 시 브랜치 사용] - git checkout branch_name: 브랜치 선택하기 - git checkout -t remote_path/branch_name: 원격 브랜치 선택하기 - git branch branch_name: 브랜치 생성하기 - git branch -r: 원격 브랜치 목록보기 - git branch -a: 로컬 브랜치 목록보기 - git branch -m branch_name change_branch_name: 브랜치 이름 바꾸기 - git branch -d branch_name: 브랜치 삭제하기 - git push remote_name--delete b..
Git 이란? git은 source(코드, 데이터 등) 관리하기 이후나 분산 버전 관리 시스템이다. 기본적으로 리눅스 개발용으로 사용되지만 윈도우버전에서도 이용이 편리하게 변했다고 한다. 코드를 버전 관리하기 위해 사용되기 때문에 코드에 버그 발생 시, 수정이 필요한 코드만 확인하거나, 또는 이전에 수정했던 코드만 파악하여 코드 작업을 할 수 있도록 하는 이점이 있다. Github 주소 >> github.com/ git을 사용하기 위한 툴로는 SourceTree, GitKraKen, SmartGit 등이 있으며, GUI형식으로 작동되기 때문에 코드의 버전 관리를 눈으로 확인하기에 용이하다. 아직 git이 익숙하지 않기 때문에 항상 검색하고 여러번 시도해보면서 익히는 중이다. "git add > git c..
텍스트를 처리하기 이전에, 처리하고자 하는 토큰의 단위를 정의하는 것은 중요하다. 텍스트를 어떤 토큰의 단위로 분할하냐에 따라 단어 집합의 크기, 단어 집합이 표현하는 토큰의 형태가 다르게 나타나며 이는 모델의 성능을 좌지우지하기도 한다. 이처럼 텍스트를 토큰의 단위로 분할하는 작업을 토큰화(tokenization)라고 한다. > 어절(단어) 기본적으로 자연어처리에서는 어절(단어) 단위로 구분한다. 예를 들어, "나는 학교에 간다" 라는 문장을 어절 단위로 토큰화하면, [나는, 학교에, 간다]와 같이 띄어쓰기 기준으로 문장이 분할된다. 이를 어절 단위 토큰화라고 한다. > 형태소 (KoNLPy, KLT2000) (형태소: 의미가 있는 가장 작은 말의 단위) 한국어는 교착어의 특성으로, 하나의 단어가 여러..