반응형
뭐 좀 아이디어 없나 생각하려고 휘리릭 찾아봤다.
몇가지 기억을 더듬어 추가. 따라서, 기억 왜곡이 있을 수 있다.
[현재까지 본 것 요약]
Backbone
- ACAR-Net과 애플논문은 모두 SlowFast를 사용했다.
단, 애플의 경우 SlowFast50 8*8만 실험했음. - 저번 AVA Action 챌린지 결과를 보면 대부분의 순위권 논문들은 SlowFast101을 사용했다.
그리고 pretraining의 경우, Kinetics400보다는 600, 700이 더 성능이 좋았다.
당연한거지만 성능 차이가 무시 못할 수준이었기 때문에 적어둠. 왜냐면 애플의 경우 Kinetics400 pretrained 사용.
BBOX
- 애플: SlowFast에서 미리 계산해둔 bbox 사용.
실제로, mmaction (구버전) 셋업해서 돌려보면 이걸 다운받아서 사용하도록 코딩이 되어있다.
요즘 open mmlab에서 업뎃중인 mmaction2는 어떤지 모르겠다. - ACAR-Net: arXiv preprint arXiv:2007.09861, 2020 (Context-Aware RCNN)에서 사용한 것을 사용
몹시 주관적인 의견
- 현재 논문들만 놓고 보면 fair comparision이 어렵다.
- R50 8*8만 놓고 비교해보자.
- AVA 2.1에서 성능이 ACARNet과 애플논문 모두 똑같이 24.8로 적혀있다.
그런데 ACARNet이 왜 26.71로 적혀있지? 원 논문에서는 28.3인데? - 근데 ACAR의 경우 다른 기법들 가져다가 같이 써서 영끌했을 가능성이 있어서,
feature bank 이런거 순수하게 다 빼놓고 비교했을때 애플 것이 좋을지도 모른다. 아직 확인 안해봤는데, ACARNet의 ours는 그 논문 핵심 아이디어인 액터-컨텍스트-액터 관계를 전부 어텐션 구했다는 것 하나만 쓴게 아닐것 같다. - 죄다 어텐션 기반인거면 아무래도 transformer 활용하여 뒷부분 디자인한게 더 좋을 가능성이 높다.
그러나 트랜스포머 학습이 잘 되긴 할까 의심스럽다.
ViT 나오자마자 이걸로 action recognition 하겠다고 대충 구현해서 학습해봤었는데, 이 당시에는 pretrained 없으니까 시간은 겁나 걸리고 수렴 안하고 난리났던 악몽이 있어서 내가 트랜스포머에 불신이 생겼기 때문.
결정적으로, TubeR과 애플은 코드 공개를 안했다!!! ACAR처럼 당당해지란 말이야
[arxiv sanity 기준]
검색 키워드: Action Localization, Detection 검색 후 abstract에 AVA 들어가는 것 선택
정렬 기준: arxiv sanity 검색 최신순
- Spatio-Temporal Context for Action Detection https://arxiv.org/abs/2106.15171v1
- 애플에서 나온 논문, 4페이지 짧은 논문, 코드 없음
애플에서 나왔다니까 당연히 코드가 없을 것 같고 묘한 불신이 생기는건 기분탓인가 - ACARNet보다 성능 좋다고는 하는데 의심이 생긴다
- ablation의 부재, 원래 ACAR-Net이 좋은 성능을 낸 셋팅과 비교하지 않음 등을 고려하면 논문 자체에서 검증이 덜 되었기 때문에 굉장히 의구심이 생길 수 밖에 없으나 (게다가 ACARNet 논문 성능에 26.71은 없다),
실험을 Kinetics400 pretrained에 (600, 700이 아니므로 성능 저하), Depth 50인걸 감안하면 더 좋을지도 모르겠다는 생각이 든다.
왜냐면 아키텍쳐 디자인 자체만 놓고보면, (성공적으로 transformer 학습이 되었다는 가정하에) ACAR-Net보다 성능이 좋을 가능성이 있기 때문이다. - 한줄 요약: 그냥 실험 검증이 덜 된 논문이라 아이디어 참고하기엔 나쁘지 않음
- 애플에서 나온 논문, 4페이지 짧은 논문, 코드 없음
- TubeR: Tube-Transformer for Action Detection https://arxiv.org/abs/2104.00969v2
- 이게 아쉽게도 ACAR-Net 언급이 없다. 명색이 AVA Action 챌린지 1등 논문이었는데 너무해라
- 트랜스포머를 썼기땜에 애플 논문이랑 비교하면 재밌을 것 같은데, 성능 비교가 진짜 애매하다.
Context aware RCNN이랑 비교한것도 아니고.
- Video action detection by learning graph-based spatio-temporal interactions https://arxiv.org/abs/1912.04316v3
- Spatial-Temporal Alignment Network for Action Recognition and Detection https://arxiv.org/abs/2012.02426v1
- Context-Aware RCNN: A Baseline for Action Detection in Videos https://arxiv.org/abs/2007.09861v1
- Actor Conditioned Attention Maps for Video Action Detection https://arxiv.org/abs/1812.11631v3
- Asynchronous Interaction Aggregation for Action Detection https://arxiv.org/abs/2004.07485v1
- Spatio-Temporal Action Detection with Multi-Object Interaction https://arxiv.org/abs/2004.00180v1
- Deformable Tube Network for Action Detection in Videos http://arxiv.org/pdf/1907.01847v1.pdf
- A Study on Action Detection in the Wild http://arxiv.org/pdf/1904.12993v2.pdf
- STEP: Spatio-Temporal Progressive Learning for Video Action Detection http://arxiv.org/pdf/1904.09288v1.pdf
- Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed Videos http://arxiv.org/pdf/2007.10703v1.pdf
- 기타 등등...
[CVPR 2021 기준]
검색 키워드: Action Localization, Action Detection
Action Localization (딱 한편)
- Actor-Context-Actor Relation Network for Spatio-Temporal Action Localization https://github.com/Siyu-C/ACAR-Net
- AVA Action 챌린지 저번에 1등한 기법
- 챌린지 2등부터는 간단한 기법들을 사용한 것으로, 새로운 것을 제안하는 형태는 아니었던 것으로 기억. (아닐 수도 있는데 예전에 찾아봤을때 그랬음)
- 키 프레임 딕텍션: Faster R-CNN with a ResNeXt-101-FPN.
- 백본: SlowFast101
- AVA Action 챌린지 저번에 1등한 기법
유사할지도 모르는 다른 분야
1. HOI (Human object Interaction Detection): 이미지 도메인
- Glance and Gaze: Inferring Action-Aware Points for One-Stage Human-Object Interaction Detection
- End-to-End Human Object Interaction Detection With HOI Transformer
- QPIC: Query-Based Pairwise Human-Object Interaction Detection With Image-Wide Contextual Information
- HOTR: End-to-End Human-Object Interaction Detection With Transformers
- Affordance Transfer Learning for Human-Object Interaction Detection
2. Temporal Action Detection
- Three Birds with One Stone: Multi-Task Temporal Action Detection via Recycling Temporal Annotations
- WOAD: Weakly Supervised Online Action Detection in Untrimmed Videos
- 몇가지 더 있었던 것 같으나 패스
반응형
'AIML 분야 > Video Classification & Detection' 카테고리의 다른 글
[2021.08.27 수정] action 관련 이것저것 기록 (1) | 2021.08.24 |
---|---|
Action Localization (Spatial Temporal Action Detection) 서베이 2 (0) | 2021.07.19 |
[Action Detection] ACAR Net (0) | 2021.05.11 |
Action Recognition보다 디테일한 Video 인식분야 조사 (0) | 2021.04.23 |
[Large-scaled video dataset 학습하기] Kinetics700 pretrained model 만들기 (feat. opencv deadlock) (4) | 2021.02.04 |
댓글