[2021.02.24] 파워 때문에 사망할 수도 있었다

현재 HRNet V2 + OCR을 돌리고 있다.

그런데 실험 도중 5분도 지나지 않아 컴퓨터가 갑자기 꺼졌다.

이 컴퓨터를 포함하여 옆에 같이 있던 다른 컴퓨터까지.

HRNet V2를 돌릴 때는 GPU를 꽉꽉 채워 돌려도 아무 문제가 없었는데, HRNet V2 + OCR을 돌릴 때에는 이런 현상이 있었다.

OCR 논문 코드 자체가 HRNet V2 코드를 기반으로 하기 때문에 둘이 매우 유사하게 생겼는데 말이다.

확인해보니 전원 스위치가 내려가 차단되어있었는데, 전력에 제한을 걸어두는 것인데 이게 동작했던 모양이다.

현재 한쪽 컴퓨터에는 HRNet V2를, 다른 한쪽에는 HRNet + OCR을 실험하고 있다.

문제가 없는 HRNet V2의 경우에는 꽉 채워서 써도 전력이 capacity를 넘어가는 현상은 없었다. (모니터링 몇분 해본 결과)

OCR은 간혹가다가 평소 전력의 2배 가까이를 요구하는 일이 있다. 이런 현상이 주기적으로 발생한다.

그래서 batch size를 조금 줄여서 실험하고 있지만, 여전히 가끔 전력이 넘치는 현상은 남아있다.

대략 150W 정도 요구하는데, 가끔 이렇게 2배로 튀게 된다.

죽지 않고 스무스하게 넘어가기도 하는데, 이 상황에서 삐끗하면 죽게된다.

이게 모델의 문제인지, 코드를 내가 잘못 돌린 것인지, 장비 문제인지는 알 수 없다.

다만 GPU 파워때문에 컴퓨터가 꺼진 일은 종종 있었어서 아무래도 복합적인 문제이지 않나 싶다.

장비가 문제였다면 같은 전원을 쓰고있는 HRNet V2가 죽었어야한다.

구버전 nn.DataParallel 쓰는것도 아니고, torch 1.6에서 distributed 처리중인데도 이런 문제인걸 보면 음...

그냥 single GPU로 돌려야하나 그런 생각도 든다. 그럼 배치 사이즈가 4~5정도밖에 안 되겠지만.

아무튼 이 글을 쓰는 이 순간에도, 10분 이상 잘 돌던 컴퓨터가 'vscode' 한번 켰다고 사망했다.

접근할 때 얘가 연산을 순간적으로 잡아먹어서 터져버린 모양이다.

이대로 실험하는건 굉장히 위험할 것 같으니, 일단은 torch를 업그레이드 하든가 해야겠다.

single GPU로 한번 돌려보고 시간을 재보자.

[2021.05.25] 연구일지 (모델 초기 구현, arxiv-sanity 살펴보기) (0)	2021.05.25
[2021.03.04 연구노트] Deep Neural Network Visualization? (0)	2021.03.04
[연구노트] 당분간 봐야하는 것 (0)	2021.02.10
cmd로 그래픽 드라이버 업그레이드 (0)	2021.02.05
새로운 다짐 : kaggle 도장깨기를 해보자 (0)	2021.01.23

딥러닝을 해보아요