반응형 AIML 분야102 [데이터셋 논문] CholecSeg8k: A Semantic Segmentation Dataset for Laparoscopic Cholecystectomy Based on Cholec80 읽는다 논문 CholecSeg8k: A Semantic Segmentation Dataset for Laparoscopic Cholecystectomy Based on Cholec80 https://arxiv.org/pdf/2012.12453.pdf IPCAI 2021 논문이다. https://www.kaggle.com/newslab/cholecseg8k 데이터셋 다운로드 링크 그런데 아직 kaggle에 정의된 task도 없고, 스타터 코드는 그냥 데이터 불러오고, 데이터 통계량 플랏해주는 내용 외에 없다. discussion 등을 뒤져봐도 마찬가지. 논문에도 baseline method같은게 전혀 없어서 성능이 어느정도 나와야 하는지는 미지수이다. https://www.youtube.com/watch?.. 2021. 10. 29. [Surgical Vision + Transfer Learning] Cross-surgery transfer learning for surgical step recognition 논문 읽기 이 분야 계속 보고있어서, 논문 찾을때마다 업데이트할거임 “Train one, Classify one, Teach one” - Cross-surgery transfer learning for surgical step recognition (MIDL 2021) https://arxiv.org/pdf/2102.12308.pdf 요약? 비디오 상에서의 Surgical Workflow step recognition 논문 surgical step recognition을 4종류의 laparoscopic surgeries에서 진행 Cholecystectomy, Right Hemicolectomy, Sleeve Gastrectomy, and Appendectomy Time-Series Adaptation Network.. 2021. 10. 27. Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation 구현 해야함 Instance Segmentation에서 rare object에 대한 성능을 높이기 위한 augmentation기법 1. 오브젝트 여러개를 다른 이미지에서 가져와서 붙이는 것. 이를 위해 2장의 이미지를 랜덤으로 뽑는다. 2. Scale Jittering과 horizontal flipping. (랜덤) - SSJ: 0.8 to 1.25 / LSJ: 0.1 to 2.0 - LSJ가 실험결과상으로는 더 좋았다고함. 근데 도메인 따라 다를것임 3. Gaussian filer 적용해서 I1, I2 blending함. 근데 없어도 성능 비슷하대서 난 안쓸거임 4. translation 적용 논문 확인 https://arxiv.org/pdf/2012.07177.pdf 구현 확인 (비공식, 공식 링크 .. 2021. 10. 19. [휘리릭 논문 읽기] Multi-Task Self-Training for Learning General Representations transfer learning으로 보통은 pretrained model을 주로 사용. 다른 기법들도 이미지, 그것도 classification에서 주로 활용되는듯 싶다. 하지만 모델이 뭘 배웠느냐는 관점에서 보면 transfer learning이 잘 안되는 것 같다. 빠른 수렴에 이득인것이지 정확도에는 그렇게 이점이 없다는 논문도 있고... 하지만 데이터 개수가 적을 때에는 확실히 도움이 되는 것 같다. 예를들면 STL10과 같은 작은 데이터셋. 같은 맥락에서, 현재 내가 다루고 있는 의료 도메인의 경우, 마찬가지로 데이터를 만드는 데에는 한계가 있으니. 다른 도메인의 의료 데이터에서 지식을 transfer 하여 성능개선을 도모하는건? 아직까진 ImageNet pretrained 불러와서 쓰거나 아예 .. 2021. 10. 8. [학회 리뷰] MICCAI 21 살펴보기 저작권 문제땜에 이 포스팅은 공개하면 안될 것 같다. 개인 정리용. 오늘의 목표 - 관련분야 한번 싸악 살펴보자 학회 홈페이지가 굉장히 잘 되어있다. 아직 최종본은 아니지만 저자들의 논문과 리뷰, 발표영상을 전부 볼 수 있다. Surgical Action Recognition Surgical Workflow Anticipation using Instrument Interaction Multi-View Surgical Video Action Detection via Mixed Global View Attention 1. Surgical Workflow Anticipation using Instrument Interaction 도구/페이즈별 잔여시간을 예측하기 때문에 기존의 surgical workflow .. 2021. 10. 1. SPADE, OASIS, SEAN 모델만 빠르게 방금 SEAN 돌리고 왔다. 코드를 뜯어 합치려니까 논문 일단 읽어야겠다 다른건 관심 없고 구조 차이를 보려고 한다. 1. SPADE https://arxiv.org/pdf/1903.07291.pdf [아키텍쳐 전체 구조] 인퍼런스에서 만드는건 맵만 가지고 만들겠지만 학습때는 이미지 봐야하니까. [이미지 인코더] 간단하게 생겼다 Generator, Discriminator 구조를 각각 보자. Generator는 SPADE ResBlock과 upsample 연산으로 구성되어있다. Upsample은 nearest neighbor upsampling. 핵심은 SPADE ResBlock의 구조일 것이다. Spade ResBlock의 구조이다. {SPADE - ReLU - 3*3 Conv-k} * 2로 이루어져 .. 2021. 9. 16. SEAN 돌려보고 이것저것 수정해보기 쓰면서 계속 추가중 코드 링크 https://github.com/ZPdesu/SEAN.git 스타일을 mask로부터 인코딩할때 region별로 추출하는 구조이다. 그러면 노이즈를 주거나 하는 식으로 특정 클래스만 컨트롤 할 수 있어보여서 한번 돌려보려고 한다. 일단 하려고 하는게, SEAN 논문 리뷰 코드 돌려보고 읽어보기 style vector 바꿔보기 -> 특정 클래스만 다양한 변화를 줘보자 OASIS 기반으로 옮기는 대신에, normalization만 SEAN 방식으로 바꿔주기 잘 모르고 하는 소리라 뭐가 안맞거나 불가능한 부분이 있을수는 있겠는데 아무튼 도전 1. 이것저것 다운 - CelebA-HQ 데이터 다운 - 깃허브 클론 후 requirements.txt 설치. torch 1.2를 쓴다. -.. 2021. 9. 16. GAN 이것저것 대충 읽기 고전이라 이름은 많이 들어봤고, 직접 해본적은 없고, 논문은 길고, 검색하면 그래서 이 논문이 뭘한거지 싶어서 매우 대충 이것저것 읽은 기록 그냥 GAN (NIPS 14) 검색하면 경찰과 위조지폐 얘기가 잔뜩 나올테니 패스 Pix2Pix CVPR 2017 conditional GAN이 생각보다 일반적인 이미지 -> 이미지 모델에 다양하게 쓰일 수 있음을 시사하는 논문 generation시에 random noise z만 주는게 아님. 데이터 x도 준다. 참고로 디코더는 PixelGAN 썼다. real/fake를 패치 단위로 판단한다. ICCV 17 CycleGAN 그림으로 설명 끝남 UNIT, MUNIT은 여기 정리 잘 되어있다. https://velog.io/@tobigs-gm1/UNIT Unsuperv.. 2021. 9. 14. 쓰는 중이다 [Camera Pose Estimation] 최근 논문 하나 살펴볼까 ! 논문 리뷰라기보다는 주관적인 의견이나 다른 아는 내용들을 덧붙여서 주절거리는 글입니다. 직역보다는 내멋대로 의역이 많고, 건너뛴 내용도 있음 ! "Reassessing the Limitations of CNN Methods for Camera Pose Regression" https://arxiv.org/pdf/2108.07260v1.pdf 여기에 말을 했었나 기억이 안나는데, 요즘은 camera motion estimation 모델을 개발중이다. 내가 자동차 관련 회사에 다니는건 아닌지라 자율주행을 연구하고 있는건 아니지만, VO는 주로 자율주행에 쓰는 것 같다. 아무튼 이 분야에서 최근 아카이브에 새로운 논문이 떴고, top recent 목록에 있기 때문에 읽어보도록 하자. 서론 Visual lo.. 2021. 9. 10. [휘리릭 논문읽기] Learning High Fidelity Depths of Dressed Humans by Watching Social Media Dance Videos "Learning High Fidelity Depths of Dressed Humans by Watching Social Media Dance Videos" https://openaccess.thecvf.com/content/CVPR2021/papers/Jafarian_Learning_High_Fidelity_Depths_of_Dressed_Humans_by_Watching_Social_CVPR_2021_paper.pdf CVPR21 Best Paper Honorable Mentions로 꼽힌 두 논문중 하나이다. 다른 논문 하나는 "Exploring Simple Siamese Representation Learning"이며, stop gradient를 사용하는게 contribution. applicat.. 2021. 8. 30. [2021.08.27 수정] action 관련 이것저것 기록 1. AVA dataset은 하나의 center frame에 대해서 여러 bbox가 있고, 거기에 또 multi-label이다. 그러면 일반적인 AVA 모델들의 경우 output이 어떻게 생겼나? 지금 내가 구현중인건 중간 부분을 바꿨지, GAP, FC같은거 들어있는 뒷단은 손대지 않아서 모르겠다. evaluation은 bbox단위로 하는 것 같은데 코드가 복잡해보여서 확인 해봐야 안다. -> 확인함 2. long term feature bank 논문을 아직 안읽었는데 대략적인 내용이 궁금하다. 아래 그림처럼 한다는건, 원래 3DConv 기반의 backbone에 들어가는 Input보다 더 많은 프레임을 본다는 얘기인가? 성능이 오를 수 밖에 없군 그런거면 주어진 input만 가지고 활용하는 방법과는 언제.. 2021. 8. 24. [휘리릭 논문 읽기] CVPR 2021 Best Paper: GIRAFFE "GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields" Michael Niemeyer, Andreas Geiger 발표 뭐할지 고민하는 중에 이름이 귀여운 논문을 발견했다! 근데 이번 CVPR best임. 세상에... 올해 CVPR best paper조차 모르고 연구하고 있었다니 어떻게 그럴 수가 있지? 당장 읽어보도록 하자 뭐 하는 논문인가요? 이런식으로 controllable image generation을 한다. ? 뭔가 저런식으로 controllable한걸 하려는 수요는 엄청 많았을테니 연구가 많긴 했을텐데, 3D 고려해서 한게 없다는 것 같다. 왜냐면 원래 자연이 3D라는걸 고려하지 않고 이미지상에서 요소를.. 2021. 8. 17. StyleGAN v2보다 좋은 transformer 기반 GAN이 나왔음 ViTGAN: Training GANs with Vision Transformers https://arxiv.org/pdf/2107.04589v1.pdf UC San Diego, 구글 리서치 전에 봤던 TransGAN의 경우는 StyleGAN V2에 못미쳤었다. TransGAN 논문에 따르면 (transformer 기반일 경우) Discriminator 만들기가 생각보다 까다로웠고, Generator의 경우 transformer 기반으로 한게 AutoGAN (19년) 급의 성능을 보인 것으로 기억한다. 아마 이때 내가 투덜거렸던게, Generator에서 가능성이 있는거라면 좋은 transformer기반의 generator를 만드는 아키텍쳐 디자인 연구가 있다면 좋겠지만, 아직 사례가 없어서 아쉽다고 했었.. 2021. 8. 5. Transformer와 CNN과 융합, 최강의 backbone 서베이 해보기? (EfficientNet V2, CMT, ViT, DeiT, Swin 등) 딥러닝 아키텍쳐 진짜 아무말. 디자인 하며 고민한 것과 서베이 내용을 다루는 글이다. 완전 딴 소리 TMI 더보기 성능 올리는 생각을 하면서 엉성하게나마 모델 고안을 하다보니, 요즘 관심사는 아무래도 'SOTA 모델들이 왜 성능이 좋은가?' 이다. 아키텍쳐 만들려고 하니까 연산 하나하나 단위가 중요했다. 학부때 처음 딥러닝을 접했을때는 Depthwise convolution같은거 그냥 검색해서 어떤 연산인지 보고 설명 이해하고 흘러 넘겼는데, 이젠 각각을 다시 봐야겠다는 마음이 들기 시작했다. 현재 풀고싶은 task가 있는데, SOTA 모델의 단점이 뭔지 생각해보고 개선할 수 있도록 하는게 목표다. 성능이 아직 높지 않은 어려운 task이기 때문이다. 그러려면 먼저 이미 있는 모델들을 서베이하고 이해해야.. 2021. 8. 4. [작성중...] K-Net: Towards Unified Image Segmentation "K-Net: Towards Unified Image Segmentation" 논문: https://arxiv.org/pdf/2106.14855v1.pdf !! 논문 읽으면서 쓰는 글이라 의역이나 사족 달아놓은게 많습니다 !! arxiv sanity를 뒤지며 수많은 transformer에 기분이 상할 즈음에 트랜스포머가 아닌걸 발견했다. mmdetection을 시작으로 mmaction mmsegmentation 등, 많은 학습모델들을 지원해주는 open-mmlab에서 나왔다! 역시 mmcv 시리즈에 코드를 공개할 예정으로 보인다! 이미 나왔는지는 확인 안해봄 K-넷이라길래 애국 코인인줄 알았더니 아니었다! 무려 중국 모델 코리안-네트워크 아니고 커널-네트워크다 K-방역 K-반도체 뭐 이런건줄 알았어 Ab.. 2021. 7. 23. 이전 1 2 3 4 5 6 7 다음 반응형