본문 바로가기
반응형

AIML 분야102

Object Detection 조사 드디어 detection을 해보는구나. 이제 시작이니 조사를 해보아요 Contents - 코드: mmdetection - 기본 개념: 고전 알고리즘, evaluation metrics, Datasets... - SOTA 모델: paperswithcode 찾아보기, foundation model 말고 그냥 object detection 잘되는거 찾기 - 기타: kaggle 등 toy example로 해볼만한 것? TMI 3년차 엔지니어로서 지금까지 대략 Semantic Segmentation, GAN, Video (Action Recognition, Action Detection, Temporal Localization), Depth, Camera, T2I Retrieval, feature fusion 등.. 2022. 8. 4.
[논문 읽기] DALLE 읽으면서 쓰는 글 보호되어 있는 글 입니다. 2022. 7. 26.
[논문 읽기] Hierarchical Text-ConditionalImage Generation with CLIP Latents (DALLE 2) 보호되어 있는 글 입니다. 2022. 7. 26.
[논문 읽음] Align before Fuse: Vision and LanguageRepresentation Learning with Momentum Distillation 보호되어 있는 글 입니다. 2022. 7. 26.
기존 Semantic Segmentation 모델 알아보기 (feat. 기본기) 그냥 SOTA 모델 공부해서 찾아서 돌리기 식으로 하다보니 History가 부족한 것 같아서 찾아봤다. 이번 기회에 빠삭하게 알아보겠어. 일단 써놓고 예전 포스팅이랑 합치기도 해야겠다. Fully Convolutional Network (FCN) 원 논문은 14년 아카이브에 떴고 CVPR 15였다. https://arxiv.org/abs/1411.4038 (논문) 새삼 기술의 발전이 빠르다... 7년 되었네요 - 일반 classification은 ConvNet + fully connected layer (FC)로 이루어져있다. - 1*1 conv로 FC를 대체했다. 그러면 모두 conv 연산으로 이루어져 FCN이라 부른다. (이유: 위치 정보를 잃지 않기 위하여) - 참고로 이 논문이 나온 시절을 생각해.. 2022. 7. 26.
[Libelas 파이썬 버전] Depth Estimation 하는데 GT가 없을때 사용하는 툴?! Depth Estimation을 하고싶은데 GT가 없어요 몇가지 생각해볼수 있다. 1. 뭔가 GT처럼 활용할 수 있는걸 고전 알고리즘으로 뽑고, supervised learning 알고리즘을 활용해 학습 2. 그냥 self/unsupervised learning 할게요 3. transfer learning? 이전 포스팅의 Mono-depth-and-Motion이 유사한 상황이다. - Hamlyn Dataset을 사용 - 그런데 GT depth가 없는 데이터셋 - 그래서 저자는 GT depth를 Libelas Tool을 사용하여 생성했음! (학습은 self-supervised로 하고 GT는 정량적 평가용도로만 썼지만) 그런데 Libelas 툴은 C++ 기반인가 그래서 우리 신세대 파이썬 인간들이 쓰기 좀 .. 2022. 7. 20.
[Monocular Depth Estimation] Mono depth Toolbox 사용: AdaBins 돌려보기 이전 게시글에 이어서 이제 코드를 돌릴거다. [참고] Depth Estimation 관련해서 요즘 정리한 글 (예전건 기억 안나고 요즘 쓴거) https://ambitious-posong.tistory.com/178 Mono-Depth-And-Motion (Endoscopy) https://ambitious-posong.tistory.com/180 Depth Estimation 대충 보기 https://ambitious-posong.tistory.com/181 BinsFormer와 KITTI dataset BinsFormer 공식 코드이지만 여러 모델이 구현되어있다. KITTI Dataset은 앞에서 미리 다운받았었다. https://github.com/zhyever/Monocular-Depth-Esti.. 2022. 7. 19.
[Monocular Depth Estimation] AdaBins, BinsFormer, 그리고 KITTI Depth Dataset 셋업 Contents Intro BinsFormer AdaBins 셋업을 해요 Intro. 저번 포스팅에서 depth estimation에 대한 조사를 시작했다. stereo는 다른 분께서 담당하고 계셔서 나는 Mono를 찾아보았다. 현재 SOTA는 transformer를 사용하는데다가 depth estimation을 classification-regression task로 정의한 BinsFormer이다. AdaBins도 이와 유사하게 adaptive bin을 구하도록 depth 문제에 접근했다. 따라서 나는 BinsFormer를 베이스라인으로 잡고 reproduce를 시작할 예정이나, 아직 코드가 업데이트되지 않았기 때문에 같은 레포에서 지원하면서도 유사해보이는 AdaBins를 실험할 예정이다. 그래도 기다.. 2022. 7. 18.
depth estimation task 조사 + BinsFormer 대충 보기 논문 끝났다 끼히히힣! 다시 조사를 합니다. Contents - depth estimation이 뭐더라? - paperswithcode 리스트를 보자: mono 볼게요 - BinsFormer 아주 잠깐 보기 - Dataset, Eval Metric 아주 잠깐 depth estimation이 뭐였는지 주절거리고 가자. input RGB 이미지에 대해서 depth를 추정하는 것. 물체가 가까이 있는지 멀리 있는지에 대한 값을 픽셀레벨로 맞춰야한다. Camera pose tracking이나 SLAM, SfM 등 3D로 가려면 이게 필수다. (아마도. 이 분야 모른다 이제 찾는중) 예를 들면 저번 포스팅에서 봤던 Mono-Depth-and-Motion 논문을 보면 3D Reconstruction이 최종 목표인데.. 2022. 7. 18.
[논문 읽기] Endo-Depth-and-Motion: Reconstruction and Tracking in EndoscopicVideos using Depth Networks and Photometric Constraints 두서 없이 읽는 글. 의료쪽 depth estimation 보려고 읽는거지만 사실은 SLAM이나 SfM같은데에 훨씬 관련이 깊어보인다. Endo-Depth-and-Motion: Reconstruction and Tracking in Endoscopic Videos using Depth Networks and Photometric Constraints https://arxiv.org/pdf/2103.16525.pdf 뭐하는 연구인가요? Task: Scene Reconstruction & Camera Motion 추정 Output: 6 DoF camera pose, dense 3D scene models (이건 어떤 형태지) Input: monocular endoscopic sequences를 사용 Appr.. 2022. 7. 11.
[Continual Learning 조사 1] 마구잡이로 찾아보는 글 요즘 딥러닝이 슬슬 연구단에서 넘어가 애플리케이션화 되면서 continual learning과 같은 개념에 관심이 더 많아지는 듯 하다. 이러한 수요를 대변하듯, 2022년 올해 CVPR 워크샵 기준으로 이 주제를 다루는 곳이 2군데가 있다. 'Visual Perception and Learning in an Open World' 라는 CVPR 워크샵은 올해가 두번째로 개최된다. CVPR 2022 Workshop on Continual Learning (CLVision) 또한 올해가 3번째이다. 따끈따끈 하구만. 올해 워크샵을 이것저것 찾아보는데 재밌어 보이는 주제 중 하나가 continual learning인지라 이 분야에 대한 조사를 (이제부터 글쓰면서) 시작하였다. Continual Learning.. 2022. 3. 31.
[그냥 뭔지 찾아보기] CLIP: Connecting Text and Images 혹은 Contrastive Language-Image Pre-training. 뭐죠? OpenAI에서 만들었다. natural language supervision으로 부터 시각적인 개념들을 효율적으로 배울 수 있는 네트워크이다. 원논문은 무진장 길기 때문에... 그냥 웹사이트를 봐주도록 하자. 왜 했죠? 아직까지 딥러닝은 transfer learning이 잘 안된다. 특정 태스크를 잘하기 위해 어노테이션이 많이 필요한데, 다른 분야로 확장하려고 하면 또 성능이 안좋다. 논문에서는 어떻게 했냐면, generalization and transfer를 잘 하기 위해서 natural language를 flexible prediction space로 봤다! 이런 문제를 해결하기 위해서, 웹에 있는 이미지와 자연.. 2021. 12. 15.
Towards Unified Surgical Skill Assessment 심심하니 논문을 읽어요. 아 배고파 - Towards Unified Surgical Skill Assessment NELVT Surgical Skill 평가가 몹시 중요하다. 이를 위해 surgical skill을 평가해왔는데, 일일이 하려면 비효율적이니 이 역시 자동화 하려고 한다. 따라서 수술 영상이 주어지면 수술이 얼마나 성공적으로 이루어졌는지를 평가하는 것이 이 논문의 목적이다. multi-path framework 뭘 평가하는가: surgical tool usage, intraoperative event pattern, and other skill proxies 위 요소들의 관계 또한 모델링하기 위해서 path dependency module을 정의했음 Dataset: JIGSAWS의 시뮬레이션.. 2021. 12. 3.
Masked Autoencoders Are Scalable Vision Learner + 여담 논문 읽으면서 정리 + 주절주절 아무말 간지나는 논문이 나왔으니 읽어주는게 인지상정이다. Masked Autoencoders Are Scalable Vision Learner FAIR AutoEncoder는? Encoder-Decoder 형태의 아키텍쳐이며, 좋은 인코더 얻으려고 학습한다. representation learning의 관점. 디코더를 통해 input을 복원하도록 loss를 학습시키면, 핵심적인 시맨틱을 가지는 좋은 feature를 뽑도록 네트워크가 훈련될테니까. (VAE와 비교해서 설명하는 글이 많이 있으니 모르면 찾아보도록 하자. 얘는 반대로 생성을 잘하기 위한, decoder를 얻는게 목적인 구조이다. 어쨌거나.) Denoising Auto Encoder (DAE)도 있는데, 말그대로.. 2021. 12. 1.
AVA action 학습이 이해 안가서 주절거리는 글 요즘 Action Localization(Detection) 공부를 하고 있다. 대표적으로 AVA action 데이터셋을 사용하는걸로 보인다. 이번에 엄청 큰 데이터셋(Ego4D) 하나 새로 나온걸로 알기는 하는데, 여기에 action detection이 있는지는 모르겠다. HOI는 있던데... 어쨌거나 AVA action 데이터의 어노테이션은 bbox와 그 박스에 대한 클래스로 구성되어있다. 다른 박스와 상호작용하는 클래스가 있기도 한데, 어노테이션만 뜯어보면 그냥 bbox각각에 60클래스에 대해 Multi-label classification을 하는 구조. 다시 말해, 비디오 클립이 있다고 하면 모든 프레임(정말로 다하진 않고 fps 설정 하겠지만)에서 bbox와 함께 그 오브젝트가 어떤 동작을 하는.. 2021. 11. 1.
반응형