일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Vim
- paper_review
- gensim
- text
- pip
- nlp
- github
- Ai
- json
- computer_setting
- cs224n
- error
- cs231n
- slideshare
- git
- Standford
- tab
- deeplearning
- seq2seq
- Stanford
- Statistics
- natural_language_processing
- computer
- machinelearning
- install
- language_model
- linux
- code
- review
- terminal
- Today
- Total
목록분류 전체보기 (90)
NLP/AI/Statistics
> Nearest Neighbor Classifier와 데이터셋 Image classification의 접근 방식을 이해하기 위해 우선 Nearest Neighbor classifier(NN)에 대하여 설명한다. NN 분류기는 유사성을 기준으로 분류한다고 생각하면 된다. NN 분류기 이전에 image classification에 초점을 맞춰 데이터셋부터 소개를 해보면, 대표적인 image classification 데이터셋으로 CIFAR-10 (www.cs.toronto.edu/~kriz/cifar.html) 이 있다. CIFAR-10 데이터는 32 픽셀의 너비와 높이를 가지는 60,000개의 이미지로 구성된 데이터셋이다. 즉, 32 x 32 x 3 의 이미지 데이터셋이다. 총 10개의 class로 구성..
텍스트는 연속된 토큰의 형태로 시퀀스 데이터에 속한다. 이러한 비정형 데이터를 처리하기 위해 가장 유용한 딥러닝 모델을 순환신경망이라고 한다. 순환신경망 모델은 이미지처리에서 주로 사용되는 CNN(Convolutional Neural Network) 모델과 달리 데이터의 연속적인 정보를 저장하여 순차정보를 학습하는 특징이 있으며 입력 시퀀스의 길이를 고정할 필요가 없기 때문에 텍스트를 처리하기에 용이하다는 특징이 있다. 순환신경망의 대표적인 모델로는 Vanilla-RNN (Recurrent Neural Network), LSTM (Long Short-Term Memory), GRU (Gated Recurrent Unit)이 있다. Vanilla-RNN이 흔히 RNN이라고 칭하는 모델을 의미하며, LSTM..
파일을 실행시키거나 수정하기 위해 파일을 열 때, 갑자기 아래와 같은 에러가 뜰 때가 있다. PermissionError: [Errno 13] Permission denied: (file name) 이런 문제를 해결하기 위해 chmod를 이용하여 권한을 변경할 수 있다. chmod --help는 다음과 같다. 기본 실행 방법은 권한 설정 옵션과 권한을 변경하고자 하는 파일로 작성된다. $ chmod 777 example.txt 이 때, 777이 무슨 의미인지 권한을 어떻게 변경하는지 정리하고자 한다. 우선, 파일의 권한은 terminal에서 파일 리스트를 출력해보면 확인할 수 있다. $ls -l 위의 명령어를 입력하면 사진과 같이 각 파일에 따라 권한이 표기되어 있다. 첫 번째로, 맨 앞의 'd' 와 '..
CS231n의 note1에서는 image classification에 대하여 설명한다. note 1에 대한 내용을 아래와 같이 나누어 정리할 예정이다. 1) introduction 2) nearest neighbor classifier 3) validation sets for hyperparameters tuning 우선, image classification이 어떤 task이고 어떠한 input 형태로부터 처리되어 지는지를 이해하기 위해 introduction을 설명한다. Computer vision 에서는 object detection, segmentation 등의 task가 수행된다. 그 중 Image classification은 computer vision 에서 가장 기본이 되는 task라고 할 ..
Chap4에서는 이변량 분포에 대하여 설명한다. 목차는 아래와 같이 구성된다. 4.1) 이산형 이변량 분포(결합확률질량함수, 주변확률질량함수) 4.2) 상관계수(공분산, 상관계수, 최소제곱 회귀직선) 4.3) 조건부 분포 4.4) 연속형 이변량 분포 4.5) 이변량 정규분포 우선, 이변량 분포는 두 확률변수에 대한 결합 확률 분포를 의미하며 빈도 분석, 단순상관 분석, 회귀 분석 등이 이변량 분포의 형태를 나타내는 분석기법이다. 4.1) 이산형 이변량 분포 이산형 확률공간에서 정의된 두 개의 확률 변수 $X$, $Y$에 대하여, $X$와 $Y$에 대응하는 2차원 공간을 $s$라고 할 때, $X = x, Y= y$인 확률을 $f(x, y) = P(X=x, Y=y)$라고 표현한다. 이때 $f(x, y)$는 ..
Chap3에서는 연속형 확률분포에 대하여 설명하고자 한다. 연속형 확률변수에 대하여 아래와 같이 설명할 예정이다. 3.1) 연속형 확률변수 (균일분포, 확률밀도함수, 백분위수) 3.2) 지수, 감마, 카이제곱분포 (지수분포, 감마분포, 카이제곱분포) 3.3) 정규분포 (정규분포, 표준정규분포) 3.1) 연속형 확률변수 정수와 같이 명확한 값을 변수값으로 갖는 이산형 확률변수와 달리, 연속형 확률변수는 명확한 값을 갖지 않는다. 확률 변수 $X$가 구간 $[a,b], -\infty < a < b < \infty$로부터 임의로 선택된 하나의 점의 위치라고 할 때, $[a,x], a \leq x < b$로부터 선택될 확률은 $\frac{x-a}{b-a}$이다. 이 때 $X$의 cdf는 다음과 같다. $$F(x..