본문 바로가기
반응형

AIML 분야/Video Classification & Detection17

AVA action 학습이 이해 안가서 주절거리는 글 요즘 Action Localization(Detection) 공부를 하고 있다. 대표적으로 AVA action 데이터셋을 사용하는걸로 보인다. 이번에 엄청 큰 데이터셋(Ego4D) 하나 새로 나온걸로 알기는 하는데, 여기에 action detection이 있는지는 모르겠다. HOI는 있던데... 어쨌거나 AVA action 데이터의 어노테이션은 bbox와 그 박스에 대한 클래스로 구성되어있다. 다른 박스와 상호작용하는 클래스가 있기도 한데, 어노테이션만 뜯어보면 그냥 bbox각각에 60클래스에 대해 Multi-label classification을 하는 구조. 다시 말해, 비디오 클립이 있다고 하면 모든 프레임(정말로 다하진 않고 fps 설정 하겠지만)에서 bbox와 함께 그 오브젝트가 어떤 동작을 하는.. 2021. 11. 1.
[2021.08.27 수정] action 관련 이것저것 기록 1. AVA dataset은 하나의 center frame에 대해서 여러 bbox가 있고, 거기에 또 multi-label이다. 그러면 일반적인 AVA 모델들의 경우 output이 어떻게 생겼나? 지금 내가 구현중인건 중간 부분을 바꿨지, GAP, FC같은거 들어있는 뒷단은 손대지 않아서 모르겠다. evaluation은 bbox단위로 하는 것 같은데 코드가 복잡해보여서 확인 해봐야 안다. -> 확인함 2. long term feature bank 논문을 아직 안읽었는데 대략적인 내용이 궁금하다. 아래 그림처럼 한다는건, 원래 3DConv 기반의 backbone에 들어가는 Input보다 더 많은 프레임을 본다는 얘기인가? 성능이 오를 수 밖에 없군 그런거면 주어진 input만 가지고 활용하는 방법과는 언제.. 2021. 8. 24.
Action Localization (Spatial Temporal Action Detection) 서베이 2 저번에는 Action Localization 분야에 대략 어떤 논문들이 있나 리스트를 뽑았었다. 한번 읽어보자. 1. Spatio-Temporal Context for Action Detection (줄여서 애플 논문) 4페이지짜리 숏페이퍼. CVPR 워크샵 논문이라고 한다. ablation만 추가로 해서 메인에 내도 승산 있을텐데 왜지 => 다 읽고나니 왜 워크샵에 냈는지 알 것 같다 Abstract. 최근 연구들은 거의 temporal information은 aggregation된 feature를 사용했는데, 이 논문에서는 그러지 않겠다고 말한다. short range temporal interaction을 배우기 위해 two cross attention blocks를 사용. 그림을 보면, bbox가.. 2021. 7. 19.
Action Localization (Spatial Temporal Action Detection) 서베이 1 뭐 좀 아이디어 없나 생각하려고 휘리릭 찾아봤다. 몇가지 기억을 더듬어 추가. 따라서, 기억 왜곡이 있을 수 있다. [현재까지 본 것 요약] Backbone ACAR-Net과 애플논문은 모두 SlowFast를 사용했다. 단, 애플의 경우 SlowFast50 8*8만 실험했음. 저번 AVA Action 챌린지 결과를 보면 대부분의 순위권 논문들은 SlowFast101을 사용했다. 그리고 pretraining의 경우, Kinetics400보다는 600, 700이 더 성능이 좋았다. 당연한거지만 성능 차이가 무시 못할 수준이었기 때문에 적어둠. 왜냐면 애플의 경우 Kinetics400 pretrained 사용. BBOX 애플: SlowFast에서 미리 계산해둔 bbox 사용. 실제로, mmaction (구버전.. 2021. 7. 16.
[Action Detection] ACAR Net "Actor-Context-Actor Relation Network for Spatio-Temporal Action Localization" AVA-Kinetics Challenge에서 1등을 차지한 모델. Kinetics는 딱히 관심 없으나 현재 AVA Action을 셋업중이기에 이 논문을 살펴볼 필요가 있다. 본문에 들어가기에 앞서, 현재까지 진행을 정리하면 이렇다. AVA dataset이 여러가지가 있는데, AVA Action은 버전 2.2까지 나왔다. 이게 내가 다음에 연구해야하는 task와 관련이 있다. 아마 이 데이터셋에 대해서 예전에 블로그에 썼었던것같다. 그래서 이쪽 조사가 필요한데, 마침 mmdetection과 mmsegmentation을 만든 그룹에서 mmaction도 만들었다는 것을 .. 2021. 5. 11.
Action Recognition보다 디테일한 Video 인식분야 조사 서론 이미지 인식에서 가장 흔하고 일반적인 task라고 하면 image classification이다. 비디오로 넘어오면 video classification? action recognition이라고 부르는 분야가 있다. 주어진 클립의 class를 인식하는 분야이다. image에서는 segmentation, detection 등으로 확장시켰는데, 마찬가지로 비디오에서도 더 디테일한 인식 분야가 없을까? 이에 대한 서베이 내용이다. 몇가지 살펴본 키워드는 다음과 같다. 1. Action Localization (Action Detection이라고 부름) 알아보기 AVA-Action Dataset openaccess.thecvf.com/content_cvpr_2018/papers/Gu_AVA_A_Video_.. 2021. 4. 23.
[Large-scaled video dataset 학습하기] Kinetics700 pretrained model 만들기 (feat. opencv deadlock) Large-scaled video dataset을 직접 학습할 때 발생할 수 있는 거의 모든 문제를 겪어본 것 같다. video 데이터를 다루는 첫 연구부터 뭣모르고 백본을 만드는 바람에... 이런 상황이 발생했는데, 만약에 비슷한 이슈가 발생한다면 이 삽질과정과 비슷한 해결법을 통해 디버깅이 가능할것 같다. 고려해야할 것 요약 용량 엄청나게 넉넉한거 아니면 프레임 직접 잘라서 저장할 생각은 버리는 게 좋다. 자르는 시간도 엄청나게 오래걸리며, 데이터 꽉꽉 차니까 접근 시간도 기분탓인지 더 걸리는 듯 하다. raid는 용량이 제한되어있으니 저장하기가 조금 꺼려졌다. 비우려고 하면 비울 수는 있겠는데, 지금 이거 하나만 하는 게 아닌데 키네틱스 하나가 엄청나게 잡아먹게 하는 상황을 만들고싶진 않았다. ra.. 2021. 2. 4.
[연구노트] Action Recognition Model 성능 영끌을 위한 조사 제목 그대로. 어떤 연구를 하고 있는데 매우 큰 문제에 봉착하여 베이스라인 성능을 영혼을 끌어모으지 않으면 안되는 상황이 발생하였다. 그동안 주워들었지만 fair comparison때문에 적용하지 않은 (그냥 귀찮아서 안한거지만) 모든 기법을 죄다 때려박아야한다. 지금 연구는 그게 상관 없어서. 무슨 방법이 있을까? 1. Recurrent model에 대한 본능적인 거부감(?) 때문에 CNN LSTM을 쓰긴 싫다. 따라서 backbone은 R3D나 RX3D를 고르고, 이 성능을 끌어올릴테다. 2. NonLocal Block같은걸 적용한다. 어제 아카이브 보다가 발견한 GCNet. 물론 논문은 안 읽었지만 여기 나온 GC Block을 쓰면 좋을 것 같다. NL밖에 몰랐는데 다양한 종류가 소개되어있다. gi.. 2021. 1. 22.
논문 읽기: Action Transformer Survey (2) "Late Temporal Modeling in 3D CNN Architectures with BERT for Action Recognition" (ECCV 20) 이것도 회사동료가 추천해준 논문. https://arxiv.org/pdf/2008.01232.pdf github.com/artest08/LateTemporalModeling3DCNN.git artest08/LateTemporalModeling3DCNN Contribute to artest08/LateTemporalModeling3DCNN development by creating an account on GitHub. github.com 오오. BERT를 사용했다고? 앞에서 Survey (1)에서 생각한 것 처럼 CNN 다음에 transfor.. 2021. 1. 14.
논문 읽기: Action Transformer Survey (1) "Video Action Transformer Network" https://arxiv.org/pdf/1812.02707.pdf CVPR19 oral 이었다. 코드 github.com/ppriyank/Video-Action-Transformer-Network-Pytorch- ppriyank/Video-Action-Transformer-Network-Pytorch- Implementation of the paper Video Action Transformer Network - ppriyank/Video-Action-Transformer-Network-Pytorch- github.com 논문 마감해서 드디어 다른 논문 읽을 시간이 생겼다. 저번 연구가 action쪽인지라 이것도 action recogniti.. 2021. 1. 14.
[20201229] Action Recognition + KD Survey 대충 KD를 born again network처럼(?) 써가지고 student가 outperform하게 만드는걸 action recognition에서는 성공한 논문이 없나? 싶어서 서베이중이다. 따라서, 아래 서베이 논문은 모두 action recognition task를 다룬다. KD를 주로 활용했어야하며, contribution이 거기에 있어야함. compression에 초점을 뒀다거나, cross-modal 논문들은 제외했음. cross-modal의 경우 distillation의 이유가 다를 것 같아서. (애초에 데이터셋이 달라서 참고하기 애매함) 물론 나는 서지컬 도메인에서 할거라서 너무 복잡한 베이스라인은 지양하며, 직관적이면서도 이런 접근방식이 의료계에도 잘 된다는걸 보여줄 예정이다. KD가 목적이.. 2020. 12. 29.
Video Representation Learning by Dense Predictive Coding 없는줄 알았는데 코드가 공개되어있길래 리뷰하기 시작함. video domain에서의 self-supervised learning 연구이다. ECCV 2020의 spotlight를 받은 논문이다. 코드 또한 공개되어있다. arxiv.org/pdf/1909.04656.pdf github.com/TengdaHan/DPC.git What is the paper about? - Task : Video Representation Learning (for action recognition) - Main idea : CPC를 확장한 방법인 DPC(Dense Predictive Coding) framework를 제안하여 action recognition을 타겟으로 temporal-spatial 정보를 잘 인코딩하도록 한.. 2020. 12. 28.
correspondence에 대해 드는 생각 + 연구해야하는 것? Active Bleeding 영상을 봤다. 수술 데이터에서는 특히나 무엇을 tracking해야하는가?에 대한 이슈가 매우매우 중요해보인다. 이건 그리고 self-supervised만으로는 안된다고 생각. 하지만 fully supervised로 하기에는 labeled 데이터가 부족하기 때문에, self-supervised가 필요하기는 하다. 이 아이디어는 베이스라인 논문, BERT 등에서도 똑같다. BERT & transformer encoder가 여기서의 encoder가 되는거다. pretext task는 빈칸추론이 되며 (supervision=위치정보가 된다), 이를 잘 하는 인코더를 만든 것이다. 그러나 여기서는 "visual correspondence"를 잘 맞추도록 supervision을 두고싶고.. 2020. 12. 23.
Learning Correspondence from the Cycle-consistency of Time arxiv.org/pdf/1903.07593.pdf video self-supervised learning 문제를 풀려면 뭐 아이디어 없나? 싶어서 고른 논문. 창작의 고통... CVPR 19 oral paper이며, 깃허브에 코드가 공개되어있다. 저번에 리뷰한 task-aware한 video CSL 논문이 이 논문을 인용하였다. 아직 논문 리뷰 게시글 쓴걸 읽어도 좀 알아보기 어려운데, 많이 쓰면 언젠가 늘지 않을까...? 사실 글자가 잘 안읽혀서 쓰면서 논문을 읽는거지만... ajabri.github.io/timecycle/ Learning Correspondence from the Cycle-Consistency of Time Xiaolong Wang*, Allan Jabri*, Alexei A. .. 2020. 12. 22.
적당히 살펴본 Spatiotemporal Fusion in 3D CNNs: A Probabilistic View 이번 CVPR 논문 중에서 구경해볼 논문. 역시 읽는 동시에 작성하는 글이라 의식의 흐름대로 메모하였다. 논문이 꽤 어려워보여서 내가 빠르게 이해할 수 있을진 모르겠다. 아마 대충 볼지도...? => 읽다보니까 내가 궁금한 것들을 제공하는 논문은 아니라서 대략 읽고 스킵했다. 읽다가 그만 둔 이유 확률적으로 temporal/spatial한 중요도를 잘 분석했을거라 생각했는데, 그냥 NAS논문이랑 비슷하다. 다시말해, 역시 아키텍쳐를 어떻게 구성하느냐에 대한 논문이라는 것이다. 현재 관심있는건 spatial/temporal 정보를 요즘 논문들이 어떻게 처리하느냐이다 Related work에 NAS는 없지만 droppath 자체가 NAS에서 언급이 몇번 되었던 논문. 요약 2D/1D로 temporal/spa.. 2020. 12. 14.
반응형