본문 바로가기
반응형

아무 말204

vscode remote 멈췄을 때 상황 vscode remote 사용하는데, 터미널에서 뭔가 연산이 많이 들어가는 명령어를 사용한 탓인지 뻗어버렸다. vscode 껐다켜서 다시 접속하려고 해도 해당 서버에 vscode 연결 자체를 못한다. 서버는 멀쩡. 전에 이것때문에 컴퓨터 껐다켰어서 기록하려고 급하게 글 남김 그럴 필요 없다 ps aux | grep vscode-server | wc -l 입력하면 프로세스 나올거임 적당히 위에 있는거 하나 kill 해주니까 문제가 해결되었다. 굿굿! 2021. 10. 26.
Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation 구현 해야함 Instance Segmentation에서 rare object에 대한 성능을 높이기 위한 augmentation기법 1. 오브젝트 여러개를 다른 이미지에서 가져와서 붙이는 것. 이를 위해 2장의 이미지를 랜덤으로 뽑는다. 2. Scale Jittering과 horizontal flipping. (랜덤) - SSJ: 0.8 to 1.25 / LSJ: 0.1 to 2.0 - LSJ가 실험결과상으로는 더 좋았다고함. 근데 도메인 따라 다를것임 3. Gaussian filer 적용해서 I1, I2 blending함. 근데 없어도 성능 비슷하대서 난 안쓸거임 4. translation 적용 논문 확인 https://arxiv.org/pdf/2012.07177.pdf 구현 확인 (비공식, 공식 링크 .. 2021. 10. 19.
[2021.10.18] 서베이라는걸 해보자 코딩하기 싫다 걍 논문 뭐있나 구경해야지 1. Exploring the Limits of Large Scale Pre-training JFT처럼 엄청나게 큰 dataset에서 pretrain 하는게 성능이 잘 나오니까 다들 그렇게 했다. 이에 대해 고찰하기 위하여 겁나 많은 실험을 했는데, 성능이 non-linear하게 saturation이 있었다고 한다. 심지어 pretrain-finetuning에서 서로 다른 모델을 쓸 경우에도 그랬다는 듯. MLP-Mixer, ViT, CNN based model에서 실험을 했다. 겁나 많은 실험을 했던데... 구글만 가능한 연구. 암튼 결론은 하나의 좋은 pretrained model이 모든 곳에 만능은 아니니까, dataset diversity에 더 신경쓰란다... 2021. 10. 18.
[휘리릭 논문 읽기] Multi-Task Self-Training for Learning General Representations transfer learning으로 보통은 pretrained model을 주로 사용. 다른 기법들도 이미지, 그것도 classification에서 주로 활용되는듯 싶다. 하지만 모델이 뭘 배웠느냐는 관점에서 보면 transfer learning이 잘 안되는 것 같다. 빠른 수렴에 이득인것이지 정확도에는 그렇게 이점이 없다는 논문도 있고... 하지만 데이터 개수가 적을 때에는 확실히 도움이 되는 것 같다. 예를들면 STL10과 같은 작은 데이터셋. 같은 맥락에서, 현재 내가 다루고 있는 의료 도메인의 경우, 마찬가지로 데이터를 만드는 데에는 한계가 있으니. 다른 도메인의 의료 데이터에서 지식을 transfer 하여 성능개선을 도모하는건? 아직까진 ImageNet pretrained 불러와서 쓰거나 아예 .. 2021. 10. 8.
[2021.10.06] 연구일지 - 텐서보드, segmentation mask 관련 에러 등 미래의 내가 다시 찾기 귀찮을까봐 박제 1. 맨날 까먹는 tensorboard 사용 일단은 서버에서 텐서보드 실행. tensorboard --logdir='' --port=5326 그리고 포트 연결. ssh -L 12345:localhost:6789 sghong@server_ip ssh 22로 연결하는거 아니면 -p [포트번호] 추가 그러고나서 내 컴퓨터에서 localhost:12345 이렇게 보면 됨. 2. 멍청한 실수: segmentation mask 관련 [문제상황] semantic segmentation을 inference한 결과를 grayscale mask 이미지로 저장하려고 한다. 그냥 아무 생각 없이 jpg로 저장하니 문제가 있다. 예를 들어 클래스가 50개짜리라서 0~49값을 가지는 마스크.. 2021. 10. 6.
MICCAI 2021 Endovis - HeiSurf Segmentation 챌린지 정리 보호되어 있는 글 입니다. 2021. 10. 5.
[학회 리뷰] MICCAI 21 살펴보기 저작권 문제땜에 이 포스팅은 공개하면 안될 것 같다. 개인 정리용. 오늘의 목표 - 관련분야 한번 싸악 살펴보자 학회 홈페이지가 굉장히 잘 되어있다. 아직 최종본은 아니지만 저자들의 논문과 리뷰, 발표영상을 전부 볼 수 있다. Surgical Action Recognition Surgical Workflow Anticipation using Instrument Interaction Multi-View Surgical Video Action Detection via Mixed Global View Attention 1. Surgical Workflow Anticipation using Instrument Interaction 도구/페이즈별 잔여시간을 예측하기 때문에 기존의 surgical workflow .. 2021. 10. 1.
SPADE, OASIS, SEAN 모델만 빠르게 방금 SEAN 돌리고 왔다. 코드를 뜯어 합치려니까 논문 일단 읽어야겠다 다른건 관심 없고 구조 차이를 보려고 한다. 1. SPADE https://arxiv.org/pdf/1903.07291.pdf [아키텍쳐 전체 구조] 인퍼런스에서 만드는건 맵만 가지고 만들겠지만 학습때는 이미지 봐야하니까. [이미지 인코더] 간단하게 생겼다 Generator, Discriminator 구조를 각각 보자. Generator는 SPADE ResBlock과 upsample 연산으로 구성되어있다. Upsample은 nearest neighbor upsampling. 핵심은 SPADE ResBlock의 구조일 것이다. Spade ResBlock의 구조이다. {SPADE - ReLU - 3*3 Conv-k} * 2로 이루어져 .. 2021. 9. 16.
SEAN 돌려보고 이것저것 수정해보기 쓰면서 계속 추가중 코드 링크 https://github.com/ZPdesu/SEAN.git 스타일을 mask로부터 인코딩할때 region별로 추출하는 구조이다. 그러면 노이즈를 주거나 하는 식으로 특정 클래스만 컨트롤 할 수 있어보여서 한번 돌려보려고 한다. 일단 하려고 하는게, SEAN 논문 리뷰 코드 돌려보고 읽어보기 style vector 바꿔보기 -> 특정 클래스만 다양한 변화를 줘보자 OASIS 기반으로 옮기는 대신에, normalization만 SEAN 방식으로 바꿔주기 잘 모르고 하는 소리라 뭐가 안맞거나 불가능한 부분이 있을수는 있겠는데 아무튼 도전 1. 이것저것 다운 - CelebA-HQ 데이터 다운 - 깃허브 클론 후 requirements.txt 설치. torch 1.2를 쓴다. -.. 2021. 9. 16.
GAN 이것저것 대충 읽기 고전이라 이름은 많이 들어봤고, 직접 해본적은 없고, 논문은 길고, 검색하면 그래서 이 논문이 뭘한거지 싶어서 매우 대충 이것저것 읽은 기록 그냥 GAN (NIPS 14) 검색하면 경찰과 위조지폐 얘기가 잔뜩 나올테니 패스 Pix2Pix CVPR 2017 conditional GAN이 생각보다 일반적인 이미지 -> 이미지 모델에 다양하게 쓰일 수 있음을 시사하는 논문 generation시에 random noise z만 주는게 아님. 데이터 x도 준다. 참고로 디코더는 PixelGAN 썼다. real/fake를 패치 단위로 판단한다. ICCV 17 CycleGAN 그림으로 설명 끝남 UNIT, MUNIT은 여기 정리 잘 되어있다. https://velog.io/@tobigs-gm1/UNIT Unsuperv.. 2021. 9. 14.
쓰는 중이다 [Camera Pose Estimation] 최근 논문 하나 살펴볼까 ! 논문 리뷰라기보다는 주관적인 의견이나 다른 아는 내용들을 덧붙여서 주절거리는 글입니다. 직역보다는 내멋대로 의역이 많고, 건너뛴 내용도 있음 ! "Reassessing the Limitations of CNN Methods for Camera Pose Regression" https://arxiv.org/pdf/2108.07260v1.pdf 여기에 말을 했었나 기억이 안나는데, 요즘은 camera motion estimation 모델을 개발중이다. 내가 자동차 관련 회사에 다니는건 아닌지라 자율주행을 연구하고 있는건 아니지만, VO는 주로 자율주행에 쓰는 것 같다. 아무튼 이 분야에서 최근 아카이브에 새로운 논문이 떴고, top recent 목록에 있기 때문에 읽어보도록 하자. 서론 Visual lo.. 2021. 9. 10.
챌린지 docker 제출을 위한 셋업 과정 - mmsegmentation [도커 제출을 위한 mmsegmentation 셋업] 고려사항 제출 이미지 크기 그냥 쓰던 도커 올릴수도 있겠지만, 아무래도 코딩하다보면 잡다하게 들어가있는게 많다. 기본이미지에 필요한 것만 얹는 식으로 빌드하기로 한다. mmsegmentation 버전 및 호환되는 mmcv 버전 mmcv 버전이 안맞으면 mmsegmentation이 동작 안한다. 새로 업뎃된 코드를 사용하려고 git pull을 했다면 기존 mmcv가 동작하지 않을 수 있다. -> mmcv의 업데이트가 필요 mmcv 버전에 따른 dependency 예를 들면 mmcv 1.3.1 사용할땐 torch 1.5 (정확X) 사용했는데, 이 torch 버전에서는 더이상 mmcv latest를 가져오려고 해도 업뎃이 안된다. 여기서 cuda, torc.. 2021. 9. 7.
[디버깅] segmentation RGB image -> mask label [상황] mmsegmentation은 input으로 0부터 시작하는 2D grayscale image를 받도록 되어있음. 근데 간혹 데이터셋의 mask 이미지가 RGB 컬러로 되어있는 경우가 있음. 코드를 수정하려면 mmseg/datasets/pipelines/loading.py 의 LoadAnnotations의 __call__() 함수를 수정해야함. 여기에 RGB -> mask 맵핑을 추가하여 처리하도록하면 됨. 더 좋은 방법이 있는지는 잘 모르겠음. 아래는 RGB image -> mask label 변환 코드 뇌빼고 짜니까 너무 느려서 검색해서 찾음. 이거 쓰니까 빠른 속도로 처리됨 출처 https://stackoverflow.com/questions/53059201/how-to-convert-3d-.. 2021. 8. 31.
[휘리릭 논문읽기] Learning High Fidelity Depths of Dressed Humans by Watching Social Media Dance Videos "Learning High Fidelity Depths of Dressed Humans by Watching Social Media Dance Videos" https://openaccess.thecvf.com/content/CVPR2021/papers/Jafarian_Learning_High_Fidelity_Depths_of_Dressed_Humans_by_Watching_Social_CVPR_2021_paper.pdf CVPR21 Best Paper Honorable Mentions로 꼽힌 두 논문중 하나이다. 다른 논문 하나는 "Exploring Simple Siamese Representation Learning"이며, stop gradient를 사용하는게 contribution. applicat.. 2021. 8. 30.
[2021.08.27 수정] action 관련 이것저것 기록 1. AVA dataset은 하나의 center frame에 대해서 여러 bbox가 있고, 거기에 또 multi-label이다. 그러면 일반적인 AVA 모델들의 경우 output이 어떻게 생겼나? 지금 내가 구현중인건 중간 부분을 바꿨지, GAP, FC같은거 들어있는 뒷단은 손대지 않아서 모르겠다. evaluation은 bbox단위로 하는 것 같은데 코드가 복잡해보여서 확인 해봐야 안다. -> 확인함 2. long term feature bank 논문을 아직 안읽었는데 대략적인 내용이 궁금하다. 아래 그림처럼 한다는건, 원래 3DConv 기반의 backbone에 들어가는 Input보다 더 많은 프레임을 본다는 얘기인가? 성능이 오를 수 밖에 없군 그런거면 주어진 input만 가지고 활용하는 방법과는 언제.. 2021. 8. 24.
반응형