본문 바로가기
반응형

deep learning11

Object Detection 조사 드디어 detection을 해보는구나. 이제 시작이니 조사를 해보아요 Contents - 코드: mmdetection - 기본 개념: 고전 알고리즘, evaluation metrics, Datasets... - SOTA 모델: paperswithcode 찾아보기, foundation model 말고 그냥 object detection 잘되는거 찾기 - 기타: kaggle 등 toy example로 해볼만한 것? TMI 3년차 엔지니어로서 지금까지 대략 Semantic Segmentation, GAN, Video (Action Recognition, Action Detection, Temporal Localization), Depth, Camera, T2I Retrieval, feature fusion 등.. 2022. 8. 4.
내맘대로 딥러닝 (1) - Image Classification 내 지식 테스트겸 각 주제에 대해 주절주절 적어보려고 한다. "Image Classification." 지식 1. ImageNet Challenge와 고전 네트워크 먼저 고전 네트워크 한번 봐주면 좋겠다. 물론 지금 ResNet 말고는 딱히 쓸 일이 없겠지만. https://greeksharifa.github.io/computer%20vision/2021/10/24/ImageNet-CNN-models/ 이 글을 참고하는게 좋겠다. 2. SOTA 모델까지 쫓아오기 워낙 빨리 바뀌어서 트렌드 쫓아가기 어렵긴 하다. 대충 내 기억으로는 처음 입사했을 즈음에는 RegNet 이런거 나왔던것같은데. Neural Architecture Search는 비효율적이니까 논외... 어느새 image backbone은 Eff.. 2022. 8. 3.
[Monocular Depth Estimation] AdaBins, BinsFormer, 그리고 KITTI Depth Dataset 셋업 Contents Intro BinsFormer AdaBins 셋업을 해요 Intro. 저번 포스팅에서 depth estimation에 대한 조사를 시작했다. stereo는 다른 분께서 담당하고 계셔서 나는 Mono를 찾아보았다. 현재 SOTA는 transformer를 사용하는데다가 depth estimation을 classification-regression task로 정의한 BinsFormer이다. AdaBins도 이와 유사하게 adaptive bin을 구하도록 depth 문제에 접근했다. 따라서 나는 BinsFormer를 베이스라인으로 잡고 reproduce를 시작할 예정이나, 아직 코드가 업데이트되지 않았기 때문에 같은 레포에서 지원하면서도 유사해보이는 AdaBins를 실험할 예정이다. 그래도 기다.. 2022. 7. 18.
[Continual Learning 조사 1] 마구잡이로 찾아보는 글 요즘 딥러닝이 슬슬 연구단에서 넘어가 애플리케이션화 되면서 continual learning과 같은 개념에 관심이 더 많아지는 듯 하다. 이러한 수요를 대변하듯, 2022년 올해 CVPR 워크샵 기준으로 이 주제를 다루는 곳이 2군데가 있다. 'Visual Perception and Learning in an Open World' 라는 CVPR 워크샵은 올해가 두번째로 개최된다. CVPR 2022 Workshop on Continual Learning (CLVision) 또한 올해가 3번째이다. 따끈따끈 하구만. 올해 워크샵을 이것저것 찾아보는데 재밌어 보이는 주제 중 하나가 continual learning인지라 이 분야에 대한 조사를 (이제부터 글쓰면서) 시작하였다. Continual Learning.. 2022. 3. 31.
Implicit Regularization in Tensor Factorization 읽으면서 쓰는 글. 중간에 드랍할 수 있음. 이해한 바를 토대로 작성했으며 직역/뇌내 해석이다. 최근 arxiv sanity에 top recent라서 가져왔다. 이름부터 심상치 않은 개념을 담고 있을 것 같은 느낌이 드는 논문이다. arxiv.org/pdf/2102.09972.pdf 신기하게도 코드까지 있다. github.com/noamrazin/imp_reg_in_tf 우선 이 논문은 implicit regularization(-> generalization)에 대한 논문이다. 참고로 아래부터 계속 언급할 텐서는 Domain X를 의미한다. tensor factorization이라는 방법을 사용하는 것 같은데, 어떻게 텐서를 분해하겠다는건지 아직은 모르겠으나, 어떤 텐서가 담고 있는 정보의 내재적인 요.. 2021. 3. 4.
A Simple, Strong, and Fast Baseline for Bottom-Up Panoptic Segmentation (Panoptic Deeplab) 리뷰 구글 리서치에서 나온 논문. 저번 포스팅에서 서베이하며 언급한 논문이다. arxiv.org/pdf/1911.10194.pdf Abstract 이 논문에서는 Panoptic-DeepLab이라는 모델을 제시한다. 이 논문의 특징은 bottom-up 구조라는 것. 먼저 Semantic Segmentation branch. 여기서는 dual ASPP 사용하는데, 이전의 DeepLab스러운 방법이라고 한다. 그리고 Instance Segmentation branch. 여기서는 dual decoder. class agnostic이고, 가볍게 instance center regression도 한다. Dataset은 Cityscapes, evaluation metric은 mIoU, AO, PQ. (testset에서.).. 2021. 2. 2.
[연구노트] Panoptic Segmentation 서베이 github.com/Angzz/awesome-panoptic-segmentation paperswithcode.com/task/panoptic-segmentation Papers with Code - Panoptic Segmentation Panoptic segmentation unifies the typically distinct tasks of semantic segmentation (assign a class label to each pixel) and instance segmentation (detect and segment each object instance). ( Image credit: [Detectron2 paperswithcode.com 이 페이지를 참고하려고 한다. 세그멘테이션은 완전.. 2021. 2. 2.
kaggle 첫번째: GAN 해보기 GAN은 진짜 처음 해본다. kaggle을 둘러보다가 부담스럽지 않게 할 수 있는걸 발견했다. input 이미지를 모네 그림처럼 바꿔주는 task이다. dataset이 400MB 미만으로 딱히 크지 않고, kaggle 웹에서 지원해주는 정도의 환경에서도 얼마든지 학습할 수 있다. 근데 이따 올릴 코드 15에폭까지 돌리기 전에 자꾸 끊기긴 한다. 코드를 다 돌리고 inference output 만든거 옆에 깔끔하게 정리되어 나온다. 여기서 leader board는 MiFID 기준인데, 원래 FID score에서 training시의 memorization효과를 같이 고려한 수식이다. 현재 진행중이 challenge인데, google cloud TPU 홍보를 위한것인지 순위권에 들면 상금이 아니라 4주간의 T.. 2021. 1. 25.
논문 읽기: Action Transformer Survey (2) "Late Temporal Modeling in 3D CNN Architectures with BERT for Action Recognition" (ECCV 20) 이것도 회사동료가 추천해준 논문. https://arxiv.org/pdf/2008.01232.pdf github.com/artest08/LateTemporalModeling3DCNN.git artest08/LateTemporalModeling3DCNN Contribute to artest08/LateTemporalModeling3DCNN development by creating an account on GitHub. github.com 오오. BERT를 사용했다고? 앞에서 Survey (1)에서 생각한 것 처럼 CNN 다음에 transfor.. 2021. 1. 14.
논문 읽기: Action Transformer Survey (1) "Video Action Transformer Network" https://arxiv.org/pdf/1812.02707.pdf CVPR19 oral 이었다. 코드 github.com/ppriyank/Video-Action-Transformer-Network-Pytorch- ppriyank/Video-Action-Transformer-Network-Pytorch- Implementation of the paper Video Action Transformer Network - ppriyank/Video-Action-Transformer-Network-Pytorch- github.com 논문 마감해서 드디어 다른 논문 읽을 시간이 생겼다. 저번 연구가 action쪽인지라 이것도 action recogniti.. 2021. 1. 14.
Video Representation Learning by Dense Predictive Coding 없는줄 알았는데 코드가 공개되어있길래 리뷰하기 시작함. video domain에서의 self-supervised learning 연구이다. ECCV 2020의 spotlight를 받은 논문이다. 코드 또한 공개되어있다. arxiv.org/pdf/1909.04656.pdf github.com/TengdaHan/DPC.git What is the paper about? - Task : Video Representation Learning (for action recognition) - Main idea : CPC를 확장한 방법인 DPC(Dense Predictive Coding) framework를 제안하여 action recognition을 타겟으로 temporal-spatial 정보를 잘 인코딩하도록 한.. 2020. 12. 28.
반응형