본문 바로가기
반응형

전체 글204

Object Detection 조사 드디어 detection을 해보는구나. 이제 시작이니 조사를 해보아요 Contents - 코드: mmdetection - 기본 개념: 고전 알고리즘, evaluation metrics, Datasets... - SOTA 모델: paperswithcode 찾아보기, foundation model 말고 그냥 object detection 잘되는거 찾기 - 기타: kaggle 등 toy example로 해볼만한 것? TMI 3년차 엔지니어로서 지금까지 대략 Semantic Segmentation, GAN, Video (Action Recognition, Action Detection, Temporal Localization), Depth, Camera, T2I Retrieval, feature fusion 등.. 2022. 8. 4.
내맘대로 딥러닝 (1) - Image Classification 내 지식 테스트겸 각 주제에 대해 주절주절 적어보려고 한다. "Image Classification." 지식 1. ImageNet Challenge와 고전 네트워크 먼저 고전 네트워크 한번 봐주면 좋겠다. 물론 지금 ResNet 말고는 딱히 쓸 일이 없겠지만. https://greeksharifa.github.io/computer%20vision/2021/10/24/ImageNet-CNN-models/ 이 글을 참고하는게 좋겠다. 2. SOTA 모델까지 쫓아오기 워낙 빨리 바뀌어서 트렌드 쫓아가기 어렵긴 하다. 대충 내 기억으로는 처음 입사했을 즈음에는 RegNet 이런거 나왔던것같은데. Neural Architecture Search는 비효율적이니까 논외... 어느새 image backbone은 Eff.. 2022. 8. 3.
[논문 읽기] DALLE 읽으면서 쓰는 글 보호되어 있는 글 입니다. 2022. 7. 26.
[논문 읽기] Hierarchical Text-ConditionalImage Generation with CLIP Latents (DALLE 2) 보호되어 있는 글 입니다. 2022. 7. 26.
[연구일지] ALBEF 공식 코드를 뜯어요 (VLP, text-to-image retrieval) Align before Fuse: Vision and Language Representation Learning with Momentum Distillation 공식 코드 https://github.com/salesforce/ALBEF GitHub - salesforce/ALBEF: Code for ALBEF: a new vision-language pre-training method Code for ALBEF: a new vision-language pre-training method - GitHub - salesforce/ALBEF: Code for ALBEF: a new vision-language pre-training method github.com 논문 https://arxiv.org/pdf/.. 2022. 7. 26.
[논문 읽음] Align before Fuse: Vision and LanguageRepresentation Learning with Momentum Distillation 보호되어 있는 글 입니다. 2022. 7. 26.
AIML 개념 빠르게 정리해보기 (2): 딥러닝 특정 모델 관련 보호되어 있는 글 입니다. 2022. 7. 26.
기존 Semantic Segmentation 모델 알아보기 (feat. 기본기) 그냥 SOTA 모델 공부해서 찾아서 돌리기 식으로 하다보니 History가 부족한 것 같아서 찾아봤다. 이번 기회에 빠삭하게 알아보겠어. 일단 써놓고 예전 포스팅이랑 합치기도 해야겠다. Fully Convolutional Network (FCN) 원 논문은 14년 아카이브에 떴고 CVPR 15였다. https://arxiv.org/abs/1411.4038 (논문) 새삼 기술의 발전이 빠르다... 7년 되었네요 - 일반 classification은 ConvNet + fully connected layer (FC)로 이루어져있다. - 1*1 conv로 FC를 대체했다. 그러면 모두 conv 연산으로 이루어져 FCN이라 부른다. (이유: 위치 정보를 잃지 않기 위하여) - 참고로 이 논문이 나온 시절을 생각해.. 2022. 7. 26.
[Libelas 파이썬 버전] Depth Estimation 하는데 GT가 없을때 사용하는 툴?! Depth Estimation을 하고싶은데 GT가 없어요 몇가지 생각해볼수 있다. 1. 뭔가 GT처럼 활용할 수 있는걸 고전 알고리즘으로 뽑고, supervised learning 알고리즘을 활용해 학습 2. 그냥 self/unsupervised learning 할게요 3. transfer learning? 이전 포스팅의 Mono-depth-and-Motion이 유사한 상황이다. - Hamlyn Dataset을 사용 - 그런데 GT depth가 없는 데이터셋 - 그래서 저자는 GT depth를 Libelas Tool을 사용하여 생성했음! (학습은 self-supervised로 하고 GT는 정량적 평가용도로만 썼지만) 그런데 Libelas 툴은 C++ 기반인가 그래서 우리 신세대 파이썬 인간들이 쓰기 좀 .. 2022. 7. 20.
[Monocular Depth Estimation] Mono depth Toolbox 사용: AdaBins 돌려보기 이전 게시글에 이어서 이제 코드를 돌릴거다. [참고] Depth Estimation 관련해서 요즘 정리한 글 (예전건 기억 안나고 요즘 쓴거) https://ambitious-posong.tistory.com/178 Mono-Depth-And-Motion (Endoscopy) https://ambitious-posong.tistory.com/180 Depth Estimation 대충 보기 https://ambitious-posong.tistory.com/181 BinsFormer와 KITTI dataset BinsFormer 공식 코드이지만 여러 모델이 구현되어있다. KITTI Dataset은 앞에서 미리 다운받았었다. https://github.com/zhyever/Monocular-Depth-Esti.. 2022. 7. 19.
AIML 개념 빠르게 정리해보기 (1): 기본 개념 뭐가 있었더라 내맘대로 정리하는 개념. 출퇴근시간에 게임하는것도 슬슬 질린다. 자투리 시간에 심심하니까 이거나 좀 채워봐야지. 찾기 귀찮아서 그냥 아는거 정리하는것도 많아서 틀릴 수 있음. 빠르게 한번 훑고 세세한 개념 설명 추가해야지 각 주제 관련해서 참고해볼 자료를 링크로 걸어두었다. Ian Goodfellow- Deep Learning 책 목차 보면서 떠오르는대로 정리해도 될듯 https://github.com/janishar/mit-deep-learning-book-pdf/tree/master/chapter-wise-pdf GitHub - janishar/mit-deep-learning-book-pdf: MIT Deep Learning Book in PDF format (complete and parts) by.. 2022. 7. 19.
[Monocular Depth Estimation] AdaBins, BinsFormer, 그리고 KITTI Depth Dataset 셋업 Contents Intro BinsFormer AdaBins 셋업을 해요 Intro. 저번 포스팅에서 depth estimation에 대한 조사를 시작했다. stereo는 다른 분께서 담당하고 계셔서 나는 Mono를 찾아보았다. 현재 SOTA는 transformer를 사용하는데다가 depth estimation을 classification-regression task로 정의한 BinsFormer이다. AdaBins도 이와 유사하게 adaptive bin을 구하도록 depth 문제에 접근했다. 따라서 나는 BinsFormer를 베이스라인으로 잡고 reproduce를 시작할 예정이나, 아직 코드가 업데이트되지 않았기 때문에 같은 레포에서 지원하면서도 유사해보이는 AdaBins를 실험할 예정이다. 그래도 기다.. 2022. 7. 18.
depth estimation task 조사 + BinsFormer 대충 보기 논문 끝났다 끼히히힣! 다시 조사를 합니다. Contents - depth estimation이 뭐더라? - paperswithcode 리스트를 보자: mono 볼게요 - BinsFormer 아주 잠깐 보기 - Dataset, Eval Metric 아주 잠깐 depth estimation이 뭐였는지 주절거리고 가자. input RGB 이미지에 대해서 depth를 추정하는 것. 물체가 가까이 있는지 멀리 있는지에 대한 값을 픽셀레벨로 맞춰야한다. Camera pose tracking이나 SLAM, SfM 등 3D로 가려면 이게 필수다. (아마도. 이 분야 모른다 이제 찾는중) 예를 들면 저번 포스팅에서 봤던 Mono-Depth-and-Motion 논문을 보면 3D Reconstruction이 최종 목표인데.. 2022. 7. 18.
[논문 읽기] Endo-Depth-and-Motion: Reconstruction and Tracking in EndoscopicVideos using Depth Networks and Photometric Constraints 두서 없이 읽는 글. 의료쪽 depth estimation 보려고 읽는거지만 사실은 SLAM이나 SfM같은데에 훨씬 관련이 깊어보인다. Endo-Depth-and-Motion: Reconstruction and Tracking in Endoscopic Videos using Depth Networks and Photometric Constraints https://arxiv.org/pdf/2103.16525.pdf 뭐하는 연구인가요? Task: Scene Reconstruction & Camera Motion 추정 Output: 6 DoF camera pose, dense 3D scene models (이건 어떤 형태지) Input: monocular endoscopic sequences를 사용 Appr.. 2022. 7. 11.
[TMI] transformer가 비디오랑 segmentation쪽 SOTA도 다 깨버렸구만 * 주관과 선입견이 몹시 가득한 글 요즘 논문 쓰느라 바쁜데, action recognition과 semantic segmentation쪽 citation 정리 하느라 잠깐 서베이를 하고 있다. 내가 얘네를 마지막으로 열심히 한 게 1~2년 정도 되어서 딱 트랜스포머 유행 직전이었다. 트랜스포머를 도입하기는 하는데 그냥 vanilla ViT 나올 시기라 적용을 한다해도 그렇게 성능적으로 메리트가 보이지는 않았고, 깃발 먼저 꽂는 사람이 임자네.. 싶은 그런 연구들 나올 때였음. 그럼 현재는 어떤가 봤는데 이게 뭐임? 트랜스포머가 쓸어감. 물론 이게 transformer가 우수해서 그런건지, 요즘 논문 쓰시는 분들이 대부분 transformer를 썼으니 그중에 좋은 것도 트랜스포머라 그런건지는 몰라도 확실.. 2022. 6. 17.
반응형