Action Localization (Spatial Temporal Action Detection) 서베이 1

뭐 좀 아이디어 없나 생각하려고 휘리릭 찾아봤다.

몇가지 기억을 더듬어 추가. 따라서, 기억 왜곡이 있을 수 있다.

[현재까지 본 것 요약]

Backbone

ACAR-Net과 애플논문은 모두 SlowFast를 사용했다.
단, 애플의 경우 SlowFast50 8*8만 실험했음.
저번 AVA Action 챌린지 결과를 보면 대부분의 순위권 논문들은 SlowFast101을 사용했다.
그리고 pretraining의 경우, Kinetics400보다는 600, 700이 더 성능이 좋았다.
당연한거지만 성능 차이가 무시 못할 수준이었기 때문에 적어둠. 왜냐면 애플의 경우 Kinetics400 pretrained 사용.

BBOX

애플: SlowFast에서 미리 계산해둔 bbox 사용.
실제로, mmaction (구버전) 셋업해서 돌려보면 이걸 다운받아서 사용하도록 코딩이 되어있다.
요즘 open mmlab에서 업뎃중인 mmaction2는 어떤지 모르겠다.
ACAR-Net: arXiv preprint arXiv:2007.09861, 2020 (Context-Aware RCNN)에서 사용한 것을 사용

몹시 주관적인 의견

현재 논문들만 놓고 보면 fair comparision이 어렵다.
R50 8*8만 놓고 비교해보자.
AVA 2.1에서 성능이 ACARNet과 애플논문 모두 똑같이 24.8로 적혀있다.
그런데 ACARNet이 왜 26.71로 적혀있지? 원 논문에서는 28.3인데?
근데 ACAR의 경우 다른 기법들 가져다가 같이 써서 영끌했을 가능성이 있어서,
feature bank 이런거 순수하게 다 빼놓고 비교했을때 애플 것이 좋을지도 모른다. 아직 확인 안해봤는데, ACARNet의 ours는 그 논문 핵심 아이디어인 액터-컨텍스트-액터 관계를 전부 어텐션 구했다는 것 하나만 쓴게 아닐것 같다.
죄다 어텐션 기반인거면 아무래도 transformer 활용하여 뒷부분 디자인한게 더 좋을 가능성이 높다.
그러나 트랜스포머 학습이 잘 되긴 할까 의심스럽다.
ViT 나오자마자 이걸로 action recognition 하겠다고 대충 구현해서 학습해봤었는데, 이 당시에는 pretrained 없으니까 시간은 겁나 걸리고 수렴 안하고 난리났던 악몽이 있어서 내가 트랜스포머에 불신이 생겼기 때문.
결정적으로, TubeR과 애플은 코드 공개를 안했다!!! ACAR처럼 당당해지란 말이야

[arxiv sanity 기준]

검색 키워드: Action Localization, Detection 검색 후 abstract에 AVA 들어가는 것 선택

정렬 기준: arxiv sanity 검색 최신순

Spatio-Temporal Context for Action Detection https://arxiv.org/abs/2106.15171v1
- 애플에서 나온 논문, 4페이지 짧은 논문, 코드 없음
  애플에서 나왔다니까 당연히 코드가 없을 것 같고 묘한 불신이 생기는건 기분탓인가
- ACARNet보다 성능 좋다고는 하는데 의심이 생긴다
- ablation의 부재, 원래 ACAR-Net이 좋은 성능을 낸 셋팅과 비교하지 않음 등을 고려하면 논문 자체에서 검증이 덜 되었기 때문에 굉장히 의구심이 생길 수 밖에 없으나 (게다가 ACARNet 논문 성능에 26.71은 없다),
  실험을 Kinetics400 pretrained에 (600, 700이 아니므로 성능 저하), Depth 50인걸 감안하면 더 좋을지도 모르겠다는 생각이 든다.
  왜냐면 아키텍쳐 디자인 자체만 놓고보면, (성공적으로 transformer 학습이 되었다는 가정하에) ACAR-Net보다 성능이 좋을 가능성이 있기 때문이다.
- 한줄 요약: 그냥 실험 검증이 덜 된 논문이라 아이디어 참고하기엔 나쁘지 않음

spatiotemporal context 따로 뽑아서 relation을 디자인. transformer 사용

TubeR: Tube-Transformer for Action Detection https://arxiv.org/abs/2104.00969v2
- 이게 아쉽게도 ACAR-Net 언급이 없다. 명색이 AVA Action 챌린지 1등 논문이었는데 너무해라
- 트랜스포머를 썼기땜에 애플 논문이랑 비교하면 재밌을 것 같은데, 성능 비교가 진짜 애매하다.
  Context aware RCNN이랑 비교한것도 아니고.

Video action detection by learning graph-based spatio-temporal interactions https://arxiv.org/abs/1912.04316v3
Spatial-Temporal Alignment Network for Action Recognition and Detection https://arxiv.org/abs/2012.02426v1
Context-Aware RCNN: A Baseline for Action Detection in Videos https://arxiv.org/abs/2007.09861v1
Actor Conditioned Attention Maps for Video Action Detection https://arxiv.org/abs/1812.11631v3
Asynchronous Interaction Aggregation for Action Detection https://arxiv.org/abs/2004.07485v1
Spatio-Temporal Action Detection with Multi-Object Interaction https://arxiv.org/abs/2004.00180v1
Deformable Tube Network for Action Detection in Videos http://arxiv.org/pdf/1907.01847v1.pdf
A Study on Action Detection in the Wild http://arxiv.org/pdf/1904.12993v2.pdf
STEP: Spatio-Temporal Progressive Learning for Video Action Detection http://arxiv.org/pdf/1904.09288v1.pdf
Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed Videos http://arxiv.org/pdf/2007.10703v1.pdf
기타 등등...

[CVPR 2021 기준]

검색 키워드: Action Localization, Action Detection

Action Localization (딱 한편)

Actor-Context-Actor Relation Network for Spatio-Temporal Action Localization https://github.com/Siyu-C/ACAR-Net
- AVA Action 챌린지 저번에 1등한 기법
- 챌린지 2등부터는 간단한 기법들을 사용한 것으로, 새로운 것을 제안하는 형태는 아니었던 것으로 기억. (아닐 수도 있는데 예전에 찾아봤을때 그랬음)
- 키 프레임 딕텍션: Faster R-CNN with a ResNeXt-101-FPN.
- 백본: SlowFast101

유사할지도 모르는 다른 분야

1. HOI (Human object Interaction Detection): 이미지 도메인

Glance and Gaze: Inferring Action-Aware Points for One-Stage Human-Object Interaction Detection
End-to-End Human Object Interaction Detection With HOI Transformer
QPIC: Query-Based Pairwise Human-Object Interaction Detection With Image-Wide Contextual Information
HOTR: End-to-End Human-Object Interaction Detection With Transformers
Affordance Transfer Learning for Human-Object Interaction Detection

2. Temporal Action Detection

Three Birds with One Stone: Multi-Task Temporal Action Detection via Recycling Temporal Annotations
WOAD: Weakly Supervised Online Action Detection in Untrimmed Videos
몇가지 더 있었던 것 같으나 패스

저작자표시 비영리 변경금지

'AIML 분야 > Video Classification & Detection' 카테고리의 다른 글

[2021.08.27 수정] action 관련 이것저것 기록 (1)	2021.08.24
Action Localization (Spatial Temporal Action Detection) 서베이 2 (0)	2021.07.19
[Action Detection] ACAR Net (0)	2021.05.11
Action Recognition보다 디테일한 Video 인식분야 조사 (0)	2021.04.23
[Large-scaled video dataset 학습하기] Kinetics700 pretrained model 만들기 (feat. opencv deadlock) (4)	2021.02.04

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

딥러닝을 해보아요

Action Localization (Spatial Temporal Action Detection) 서베이 1

[arxiv sanity 기준]

[CVPR 2021 기준]

'AIML 분야 > Video Classification & Detection' 카테고리의 다른 글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

Action Localization (Spatial Temporal Action Detection) 서베이 1

[arxiv sanity 기준]

[CVPR 2021 기준]

'AIML 분야 > Video Classification & Detection' 카테고리의 다른 글

관련글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역