본문 바로가기
딥러닝 어쩌구/연구일지&디버깅

cmd로 그래픽 드라이버 업그레이드

by 포숑은 맛있어 2021. 2. 5.
반응형

지금 하는 김에 기록.

 

이 모든 일이 kinetics 때문에 일어났다. 아..

raid 용량 부족으로 프레임을 dataloader에서 자르게 했음

-> 데드락 발생

-> opencv의 램 문제임

-> torchvision.io의 video_reader에서 ffmpeg와 pyac 기반을 지원. 비디오를 바로 tensor로 변환하는걸 공식에서 지원한다고 함

-> 그걸 쓰려면 torch 0.8.1 필요

-> 그러려면 torch 1.7.0 이상 필요

-> 그러려면 gpu driver가 최신버전이어야함. 현재 서버컴의 드라이버 상태로는 pytorch가 1.5? 1.6?부터 안깔렸음

-> 그래픽카드 업데이트 필요.

 

뭐.. 최신 pytorch 버전에서는 최근의 learning scheduler같은것들도 더 업데이트 되었으니까 내친김에 업그레이드 하고 스케줄러도 바꾸고 해야겠다.

 

 

 

참고 링크

github.com/pytorch/pytorch/issues/4546 : 내 상황과 같은 에러 이슈

docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html : 혹시 모르니 CUDA 확인

towardsdatascience.com/upgrade-your-nvidia-gpu-drivers-for-a-better-performance-52818ad7ee8d 이걸 따라했다.

 

일단 내 컴퓨터 환경을 확인해주자. uname -a, nvidia-smi --query | fgrep 'Product Name' 등의 명령어로 알 수 있다.

  • Linux dgx-server 4.15.0-45-generic #48-Ubuntu SMP Tue Jan 29 16:28:13 UTC 2019 x86_64 x86_64 x86_64 GNU/Linux
  • Ubuntu 18.04.2 LTS \n \l
  • Intel Xeon (CPU)
  • Tesla V100 (GPU)
    CUDA 11.2가 Tesla만 된다는 얘기를 봐서 그럼 괜찮겠거니 하고 넘어갔다. 걍 최신버전 깔아야지.

 

환경에 맞게 https://developer.nvidia.com/cuda-downloads 에서 내 환경에 알맞은 명령어를 얻어오자.

 

그리고 다운로드.

 

받았으면 sudo sh (파일이름) 해서 실행.

아무것도 안뜨다가 실행 끝나길래 된건지 의아하다.

nvidia-smi를 해도 이전의 드라이버가 잡히기때문에 제대로 된건지 알 수가 없다.

그러니 sudo reboot now를 해서 재부팅해준다.

 

 

 

원래 여기서 끝나면 좋다. 아마 될수도 있다. (위에 작성한 링크는 이걸로 성공함)

그런데 나는 안되었다.....  그래서 다른 방법 시도.

뭔가 시도를 많이해서 여기에 모든 명령어를 다 적지는 못했다.

 


 

중간에 설치 완료되기 직전에 체크 불가능하다는 에러가 자꾸 뜨는데, 해결하려면 sudo dpkg-reconfigurelibdvd-pkg 실행해줘야하는데 오래 걸릴 것 같아서 그냥 안했다.

 

apt-get으로 그냥 설치하려고 해도 안되길래 아래 링크를 따라했다.

askubuntu.com/questions/1077493/unable-to-install-nvidia-drivers-on-ubuntu-18-04

 

그런데 중간에 ubuntu-drivers가 없다는 에러가 발생한다. 

 

sudo apt-get install ubuntu-drivers-common

 

이 명령어를 실행하면 된다.

대충 알아서 깔리는데, 그러고나서 nvidia-smi하면 NVML Driver/library version mismatch 에러 뜬다.

그럼 걍 껐다키니 해결.

 

아니 그런데 nvidia-docker가 뜬금없이 not found 에러가 뜸. 도커는 멀쩡히 깔려있는데.

 

그러면 cnvrg.io/how-to-setup-docker-and-nvidia-docker-2-0-on-ubuntu-18-04/ 여기에서 nvidia-docker 까는 방법 부분만 따라하면 된다.

 

 

그렇게 드라이버 450을 깔고

업데이트도 되고 nvidia-docker도 성공적으로 사용할 수 있었다!

torch랑 torchvision도 업그레이드 해주고 새로운 모듈도 잘 쓰고 있다.

휴.

반응형

댓글