본문 바로가기

pytorch3

[Pytorch] Pytorch DDP 사용해 multi-gpu 로 모델 학습시키기. Pytorch는 딥러닝을 위한 프레임워크로, 많은 사람들이 사용하고 있습니다. 그 중에서도 분산 학습을 위한 DDP(Distributed Data Parallel)는 많은 연구자들이 사용하고 있는데요. 오늘은 Pytorch DDP를 사용해 모델을 학습시키는 방법에 대해 알아보도록 하겠습니다. Pytorch DDP 모듈은 DP (Data Parallel)와 다르게 multi-node 에서도 사용이 가능하지만, 편의를 위해 하나의 노드, 여러개의 GPU를 가정하겠습니다. DDP는 무엇인가요? DDP는 분산 학습을 위한 방법 중 하나입니다. 분산 학습이란 여러 대의 컴퓨터를 사용해 모델을 학습시키는 방법으로, 빠른 학습이 가능합니다. DDP는 Pytorch에서 제공하는 분산 학습 방법 중 하나로, 여러 대의 .. 2023. 5. 6.
[Dockerhub] Dockerhub 사용하여 쉽고 빠르게 환경 옮기기 안녕하세요 새우깡 여러분. 서버 작업을 하다보면, 많은 경우 환경 migration을 해야 하는 경우들이 있습니다. 물론 모두 새로 다 깔아도 되지만, 이러한 작업은 번거롭고, 원치 않는 버전 미스가 나기도 합니다. 만약 docker 작업을 하고 계신다면, dockerhub를 사용해서 환경 migration을 쉽게할 수 있습니다. Dockerhub 를 사용하면, 도커 이미지를 github 소스 코드 다루듯 다룰 수 있는데요, 간단한 예시를 통해 함께 실습해 봅시다. 1. Dockerhub 가입 - 우선 https://hub.docker.com/ 에 들어가, sign up을 해주도록 합시다. 2. Dockerhub에서 repository 생성 - github의 repo 처럼, image 를 관리하기 위한.. 2022. 8. 16.
[pytorch] ModuleNotFoundError: No module named 'torch_geometric.data.dataloader' 베이스 코드를 그대로 돌렸을 때, 아예 모듈을 찾지 못하는 경우가 종종 있습니다. 대부분 버전이 맞지 않을 경우의 문제이지만, 매번 버전을 확인하는 것도 귀찮은 일입니다. 이 경우 pytorch-geometric 의 data.dataloader 를 가져오지 못하는 문제가 발생합니다. 경험상 이런 경우 그냥 바로 공식 문서로 가서 확인하는게 제일 빠르게 해결되는 것 같네요. 공식문서에 따르면, torch_geometric.data.dataloader 가 아닌 torch_geomteric.loader.dataloader에 속한 것을 확인 할 수 있고, 이 부분을 바꿔주면서 문제가 해결되었습니다. https://pytorch-geometric.readthedocs.io/en/latest/_modules/tor.. 2022. 8. 8.