반응형 AIML 분야102 Panoptic Segmentation COCO dataset 살펴보기 panoptic segmentation 논문들을 대략 살펴보면서 panoptic deeplab을 돌리기 위해 COCO dataset을 보고있다. 원래 COCO는 detection, keypoint, dense pose, panoptic 이렇게 여러가지 task에 적용될 수 있도록 어노테이션이 되어있다. 아래 링크로 들어가면 COCO dataset의 panoptic segmentation 페이지로 갈 수 있다. cocodataset.org/#panoptic-2020 COCO - Common Objects in Context cocodataset.org Class? Semantic, Instance Segmentation을 동시에 해야하는데, 그래서 stuff와 thing class들을 각각 판단해야한다. .. 2021. 2. 3. A Simple, Strong, and Fast Baseline for Bottom-Up Panoptic Segmentation (Panoptic Deeplab) 리뷰 구글 리서치에서 나온 논문. 저번 포스팅에서 서베이하며 언급한 논문이다. arxiv.org/pdf/1911.10194.pdf Abstract 이 논문에서는 Panoptic-DeepLab이라는 모델을 제시한다. 이 논문의 특징은 bottom-up 구조라는 것. 먼저 Semantic Segmentation branch. 여기서는 dual ASPP 사용하는데, 이전의 DeepLab스러운 방법이라고 한다. 그리고 Instance Segmentation branch. 여기서는 dual decoder. class agnostic이고, 가볍게 instance center regression도 한다. Dataset은 Cityscapes, evaluation metric은 mIoU, AO, PQ. (testset에서.).. 2021. 2. 2. [연구노트] Panoptic Segmentation 서베이 github.com/Angzz/awesome-panoptic-segmentation paperswithcode.com/task/panoptic-segmentation Papers with Code - Panoptic Segmentation Panoptic segmentation unifies the typically distinct tasks of semantic segmentation (assign a class label to each pixel) and instance segmentation (detect and segment each object instance). ( Image credit: [Detectron2 paperswithcode.com 이 페이지를 참고하려고 한다. 세그멘테이션은 완전.. 2021. 2. 2. kaggle 첫번째: GAN 해보기 GAN은 진짜 처음 해본다. kaggle을 둘러보다가 부담스럽지 않게 할 수 있는걸 발견했다. input 이미지를 모네 그림처럼 바꿔주는 task이다. dataset이 400MB 미만으로 딱히 크지 않고, kaggle 웹에서 지원해주는 정도의 환경에서도 얼마든지 학습할 수 있다. 근데 이따 올릴 코드 15에폭까지 돌리기 전에 자꾸 끊기긴 한다. 코드를 다 돌리고 inference output 만든거 옆에 깔끔하게 정리되어 나온다. 여기서 leader board는 MiFID 기준인데, 원래 FID score에서 training시의 memorization효과를 같이 고려한 수식이다. 현재 진행중이 challenge인데, google cloud TPU 홍보를 위한것인지 순위권에 들면 상금이 아니라 4주간의 T.. 2021. 1. 25. [연구노트] Action Recognition Model 성능 영끌을 위한 조사 제목 그대로. 어떤 연구를 하고 있는데 매우 큰 문제에 봉착하여 베이스라인 성능을 영혼을 끌어모으지 않으면 안되는 상황이 발생하였다. 그동안 주워들었지만 fair comparison때문에 적용하지 않은 (그냥 귀찮아서 안한거지만) 모든 기법을 죄다 때려박아야한다. 지금 연구는 그게 상관 없어서. 무슨 방법이 있을까? 1. Recurrent model에 대한 본능적인 거부감(?) 때문에 CNN LSTM을 쓰긴 싫다. 따라서 backbone은 R3D나 RX3D를 고르고, 이 성능을 끌어올릴테다. 2. NonLocal Block같은걸 적용한다. 어제 아카이브 보다가 발견한 GCNet. 물론 논문은 안 읽었지만 여기 나온 GC Block을 쓰면 좋을 것 같다. NL밖에 몰랐는데 다양한 종류가 소개되어있다. gi.. 2021. 1. 22. [연구 노트] Deep Active Learning 베이스라인 코드 리뷰 + 내 연구 Active Learning 연구를 예전에 했었는데 코드를 다 까먹었다. 액티브러닝만 할건 아니고 수술 영상에서 조금 특이한 연구(??)를 진행하려고 하는데, 구현할때 마음에 안들만한 구석이 있을지(?) 싶어서 기억을 더듬어 이 코드부터 다시 뜯어보려고 한다. 예전에 이걸 참고해서 짰어서. 코드 보면서 쓰는 글. 아래 코드를 보고있다. github.com/ej0cl6/deep-active-learning ej0cl6/deep-active-learning Deep Active Learning. Contribute to ej0cl6/deep-active-learning development by creating an account on GitHub. github.com Step 1. 어떻게 동작하는지 알아야.. 2021. 1. 15. 논문 읽기: Action Transformer Survey (2) "Late Temporal Modeling in 3D CNN Architectures with BERT for Action Recognition" (ECCV 20) 이것도 회사동료가 추천해준 논문. https://arxiv.org/pdf/2008.01232.pdf github.com/artest08/LateTemporalModeling3DCNN.git artest08/LateTemporalModeling3DCNN Contribute to artest08/LateTemporalModeling3DCNN development by creating an account on GitHub. github.com 오오. BERT를 사용했다고? 앞에서 Survey (1)에서 생각한 것 처럼 CNN 다음에 transfor.. 2021. 1. 14. 논문 읽기: Action Transformer Survey (1) "Video Action Transformer Network" https://arxiv.org/pdf/1812.02707.pdf CVPR19 oral 이었다. 코드 github.com/ppriyank/Video-Action-Transformer-Network-Pytorch- ppriyank/Video-Action-Transformer-Network-Pytorch- Implementation of the paper Video Action Transformer Network - ppriyank/Video-Action-Transformer-Network-Pytorch- github.com 논문 마감해서 드디어 다른 논문 읽을 시간이 생겼다. 저번 연구가 action쪽인지라 이것도 action recogniti.. 2021. 1. 14. Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers 읽어보기 글 작성에 앞서, 필자는 segmentation을 해보지 않았음을 밝힘. 구경하려고 읽어보았다. What is the paper about? - Task : Semantic Segmentation - Main idea : Transformer를 적용하자! 최근 핫했던 연구인 ViT의 방식을 따른다. # Keywords Semantic Segmentation, Transformer 서론. 무려 4일 전에 아카이브에 뜬 따끈한 논문이다. 어디에 accept되었다는 말은 못봤다. 저번에 회사에서 16*16 word images (ViT) 논문을 리뷰하여 발표할때 우스갯소리로 내 분야에도 적용한다음에 깃발 꽂으면 논문 한편 뚝딱이라고(?) 했던 기억이 난다. 그 당시 나는 저 논문이 BERTS와 더 유사하다고 .. 2021. 1. 5. Born-Again Neural Network 코드 조지기 의식의 흐름대로 아래 코드를 보는 중. 재택근무라 사람이 없어 외로운 나머지 여기에 주절거리며 코드를 리뷰하는 중이다. 사실 아직 시작도 안했다. 이 글을 다 쓸때 쯤이면 코드를 이해했겠지? 난 이미지 도메인을 다룰 게 아니어서 그냥 적당히 구경하고 넘어가서 바로 짤거다. github.com/nocotan/born_again_neuralnet.git nocotan/born_again_neuralnet Unofficial pytorch implementation of Born-Again Neural Networks. - nocotan/born_again_neuralnet github.com Readme를 보니까 train.py, inference.py 를 돌리는구나. train.py를 보러가자. train.. 2021. 1. 4. Born-Again Neural Networks 매우 잠깐 구경 arxiv.org/pdf/1805.04770.pdf 이하 BAN이라고 줄여서 쓰겠음. 아마 다들 한번쯤 들어봤을법한 논문인데 직접 논문을 열어본건 처음임. 일단 이 논문을 리뷰하는 이유는, BAN과 같은 목적으로 당장 KD 코드를 짜야하는 상황인데 코드를 뜯어보기 전에 어떻게 돌아가는건지 빠르게 확인하기 위함. What is the paper about? - Task : Knowledge Distillation - Main idea : We study KD from a new perspective: rather than compressing models, we train students parameterized identically to their teachers. 따라서, "identical capac.. 2020. 12. 29. [20201229] Action Recognition + KD Survey 대충 KD를 born again network처럼(?) 써가지고 student가 outperform하게 만드는걸 action recognition에서는 성공한 논문이 없나? 싶어서 서베이중이다. 따라서, 아래 서베이 논문은 모두 action recognition task를 다룬다. KD를 주로 활용했어야하며, contribution이 거기에 있어야함. compression에 초점을 뒀다거나, cross-modal 논문들은 제외했음. cross-modal의 경우 distillation의 이유가 다를 것 같아서. (애초에 데이터셋이 달라서 참고하기 애매함) 물론 나는 서지컬 도메인에서 할거라서 너무 복잡한 베이스라인은 지양하며, 직관적이면서도 이런 접근방식이 의료계에도 잘 된다는걸 보여줄 예정이다. KD가 목적이.. 2020. 12. 29. Video Representation Learning by Dense Predictive Coding 없는줄 알았는데 코드가 공개되어있길래 리뷰하기 시작함. video domain에서의 self-supervised learning 연구이다. ECCV 2020의 spotlight를 받은 논문이다. 코드 또한 공개되어있다. arxiv.org/pdf/1909.04656.pdf github.com/TengdaHan/DPC.git What is the paper about? - Task : Video Representation Learning (for action recognition) - Main idea : CPC를 확장한 방법인 DPC(Dense Predictive Coding) framework를 제안하여 action recognition을 타겟으로 temporal-spatial 정보를 잘 인코딩하도록 한.. 2020. 12. 28. [작성중] Deformable DETR: Deformable Transformers for End-to-end Object Detection 논문을 대략 읽어보면서 쓰는 글. 유투브에서 리뷰 영상을 봤는데 그래서 모델 component 각각에서 input/output이 어떻게 된다는건지 정확히 모르겠어서 대략 다시 보려고 한다. What is the paper about? - Task : Object Detection - Main idea : transformer를 사용함으로써 end-to-end가 되었다. - Details transformer를 대충 번역기처럼 생각했을때, output은 원래 번역된 각각의 단어처럼 나올건데, 여기서는 각 output 덩어리가 box prediction들을 의미한다. 원래 object detection에서 각 proposal에 대해 object인지/아닌지, class는 뭔지 두가지를 알려주는 head가 있었.. 2020. 12. 24. correspondence에 대해 드는 생각 + 연구해야하는 것? Active Bleeding 영상을 봤다. 수술 데이터에서는 특히나 무엇을 tracking해야하는가?에 대한 이슈가 매우매우 중요해보인다. 이건 그리고 self-supervised만으로는 안된다고 생각. 하지만 fully supervised로 하기에는 labeled 데이터가 부족하기 때문에, self-supervised가 필요하기는 하다. 이 아이디어는 베이스라인 논문, BERT 등에서도 똑같다. BERT & transformer encoder가 여기서의 encoder가 되는거다. pretext task는 빈칸추론이 되며 (supervision=위치정보가 된다), 이를 잘 하는 인코더를 만든 것이다. 그러나 여기서는 "visual correspondence"를 잘 맞추도록 supervision을 두고싶고.. 2020. 12. 23. 이전 1 ··· 3 4 5 6 7 다음 반응형