tqdm with epoch statics tqdm을 쓰면 원래 accuracy나 loss를 따로 찍어줘야한다. tqdm 내에서만 사용되는 변수를 update하는 것으로 이걸 해결해볼 수 있다. https://adamoudad.github.io/posts/progress_bar_with_tqdm/
부스트캠프 AI Tech 2기 3주차 학습정리 3주차 학습정리 강의 복습 내용 pytorch (1~11번 포스팅) https://velog.io/@naem1023/series/pytorch data viz (3~4번 포스팅) https://velog.io/@naem1023/series/Data-Viz 과제 수행 과정 / 결과물 정리 Custom model custom model 과제의 경우 assert까진 아니더라도 유닛테스트와 비슷한 형식으로 검증 코드들이 있어서 과제 수행 여부를 체크하기 편했다.
Multi gpu node system과 동일하게 쓰이는 용어 model parallelization  model parallelization은 alex-net에서 이미 쓰였던 적이 있다.  좋은 gpu parallelization은 그림처럼 gpu가 동시에 사용되도록 파이프라인 구조로 코딩해야한다. data parallelization  1. gpu1에서 데이터 취합 후 뿌려주기
pytorch transfer model 자체 코딩보다는 모델을 어떻게 다룰 것인지. Transfer learning * 다른 데이터셋으로 만든 모델(pre-trained model)을 현재 데이터에 적용 * 텅 빈 모델로부터 개발하지 않아서 효율적 * 대용량 데이터셋으로 만들어진 모델을 사용시, 성능은 더 좋다. * 가장 일반적인 학습 방법 * 일부분만 변경하여 학습 수행 * CNN: torchvision * NLP: HuggingFace가 사실상 표준 e.g., vgg로
pandas 쓸 때마다 쓰기 싫고 사용법 익히자마자 잊어버리는 pandas다. 까먹지 않게 정리해둔다. Pandas tabular 데이터를 다루기 위한 라이브러리. R의 체계를 많이 따왔다고 한다. numpy와 통합되면서 성능도 향상됐다고 한다. DataFrame * Data table 전체를 포함하는 object. 모든 데이터의 wrapper라고 생각하면 된다. * DataFrame의 Serires들은 Series마다 data type이 다를 수 있다. Series ojb = Series(data=
pytorch dataset, dataloader 졸업프로젝트 때 직접 dataset, dataloader를 구현했었는데 시간에 쫓겨서 개발한지라 정말 개발새발로 내 기억 속에 남아있다.. 이 참에 헷갈리거나 몰랐던 내용들 위주로 정리해봤다. data 흐름  중요한 것은 데이터를 tensor로 바꿔주는 것 또한 따로 고려를 해야한다는 것이다. 난 그냥 아무 곳에나 마구잡이로 막 넣었는데 ... torch.
pytorch apply nn.Module의 모든 하위 모듈들에 일괄적으로 적용하고 싶은 함수를 map과 같이 적용시켜주는 함수다. Postorder traversal 방식으로 module들을 순회한다고 한다. left child 우선으로 탐색. def do_something(m): # do something! return m model = #something very complex model result = model.apply(print_module)