Latest

Multi gpu

node system과 동일하게 쓰이는 용어 model parallelization ![](/assets/images/Multi gpu/94cb8fdb-a3de-471a-a93c-998795dd3c17-image.png) model parallelization은 alex-net에서 이미 쓰였던 적이 있다. ![](/assets/images/Multi gpu/67beca0a-0359-4bb8-8dd6-e8b1ebe83c05-image.png) 좋은 gpu parallelization은 그림처럼 gpu가 동시에 사용되도록 파이프라인 구조로 코딩해야한다. data parallelization ![](/assets/images/Multi gpu/31b41aa1-a575-4581-aef3-26b9cce4c85f-image.png) 1. gpu1에서 데이터 취합 후 뿌려주기
Sungho Park

pytorch transfer

model 자체 코딩보다는 모델을 어떻게 다룰 것인지. Transfer learning * 다른 데이터셋으로 만든 모델(pre-trained model)을 현재 데이터에 적용 * 텅 빈 모델로부터 개발하지 않아서 효율적 * 대용량 데이터셋으로 만들어진 모델을 사용시, 성능은 더 좋다. * 가장 일반적인 학습 방법 * 일부분만 변경하여 학습 수행 * CNN: torchvision * NLP: HuggingFace가 사실상 표준 e.g., vgg로
Sungho Park

pandas

쓸 때마다 쓰기 싫고 사용법 익히자마자 잊어버리는 pandas다. 까먹지 않게 정리해둔다. Pandas tabular 데이터를 다루기 위한 라이브러리. R의 체계를 많이 따왔다고 한다. numpy와 통합되면서 성능도 향상됐다고 한다. DataFrame * Data table 전체를 포함하는 object. 모든 데이터의 wrapper라고 생각하면 된다. * DataFrame의 Serires들은 Series마다 data type이 다를 수 있다. Series ojb = Series(data=
Sungho Park

pytorch dataset, dataloader

졸업프로젝트 때 직접 dataset, dataloader를 구현했었는데 시간에 쫓겨서 개발한지라 정말 개발새발로 내 기억 속에 남아있다.. 이 참에 헷갈리거나 몰랐던 내용들 위주로 정리해봤다. data 흐름 ![](/assets/images/pytorch dataset, dataloader/a659d452-c938-4671-a516-55c059003eec-image.png) 중요한 것은 데이터를 tensor로 바꿔주는 것 또한 따로 고려를 해야한다는 것이다. 난 그냥 아무 곳에나 마구잡이로 막 넣었는데 ... torch.
Sungho Park