sunghogigio

Sign in Subscribe

DL

Ensemble

필드에서는 앙상블을 시도하기 위한 노력을 모델과 학습 파이프라인을 최적화시키는데 사용한다고 한다. 하지만 competition에서는 소수점 한자리 이하의 싸움이 있기 때문에 앙상블을 활용해서 점수를 올리는 것이 중요하다. Ensemble 대부분의 모델들을 학습시켜보면 overfitting이 빈번하기 발생한다. 물론 데이터가 너무 작고 편향돼서 underfitting이 발생할 수도 있지만 흔한 경우는 아니다. 아래 그림을 보면 이해가 편할 것이다.

Training proecss

Gradient Accumulation gpu가 좋은 상황이 아닐 경우 사용할만한 방법이다. num_accum = 2 optimizer.zero_grad() for epoch in range(10): running_loss = 0.0 for i, data in enumerate(train_loader, 0): inputs, labels = data outputs = net(inputs) loss = criterion(outputs, labels) / num_accum loss.backward() if i % num_accum

헷갈렸던 training 방법

그 동안 헷갈리고 모호하게 알고 있던 내용들을 정리했다. Training, validation 순서 def train(): for epoch in range(epcoh): training() validate() 이 순서가 맞다. 아래처럼 해도 모델이 input data에 대해서 학습을 하긴한다. def train(): for epoch in range(epcohs): training() for epoch in range(epcohs): validate() 문제는 validate 시점이 모든 trainig이

Generative Models

https://deepgenerativemodels.github.io/ 스탠포드 대학의 수업이라고하는데 참고해서 수업을 진행하셨다. Generative model 단순히 이미지와 문자를 만드는 것이 아니다. ![](/assets/images/Generative Models/0f8e765f-c03c-4ef0-a45b-2717e4b2bf37-image.png) 강아지 이미지들을 받았다고 해보자. Generative model에 probability distribution $$p(x)$$를 학습할 것을 기대할 수 있다. * Generation: $$x_{new} \sim p(x)$$를 샘플링 했을 때,

Transformer

Background 기존의 rnn들도 sequence data들을 다룰 수 있지만, 위와 같이 원본 데이터에서 일부 데이터가 빠진 sequence data들에 대해서 다루기는 매우 어려웠다. 이를 다루기 위해 transformer가 등장했다. Transformer RNN처럼 재귀적인 구조가 없다. Tranasformer is the first sequence transduction model based entirely on attention. 본래는 위와 같이 기계어 번역을 위한 모델이었다. 하지만

Convolution 실습

add_module() # Concatenate all layers self.net = nn.Sequential() for l_idx,layer in enumerate(self.layers): layer_name = "%s_%02d"%(type(layer).__name__.lower(),l_idx) self.net.add_module(layer_name,layer) self.init_param() # initialize parameters tf에서는 layer를 만들 때부터 name을 따로 설정할 수 있는데,

NN & Multi layer perceptron

Neural Networks 인간이 가진 뇌의 신경망을 모방했기 때문에 잘 작동한다고도 한다. ![](/assets/images/NN & Multi layer perceptron/bec49730-5ab0-475b-9da8-3c21210874a5-image.png) 어느 정도 맞는 말이다. 실제 뉴런의 형태를 모방해서 구현된 것이 NN의 node와 흡사하다. 하지만 굳이 뇌를 모방한 것이라 하기에는 Back propagation과 같은 과정이 NN에는 필수적이다. ![](/assets/images/NN & Multi