본문 바로가기
AIML 분야/Video Classification & Detection

Action Localization (Spatial Temporal Action Detection) 서베이 1

by 포숑은 맛있어 2021. 7. 16.
반응형

뭐 좀 아이디어 없나 생각하려고 휘리릭 찾아봤다.

몇가지 기억을 더듬어 추가. 따라서, 기억 왜곡이 있을 수 있다.

 

[현재까지 본 것 요약]

Backbone

  • ACAR-Net과 애플논문은 모두 SlowFast를 사용했다.
    단, 애플의 경우 SlowFast50 8*8만 실험했음.
  • 저번 AVA Action 챌린지 결과를 보면 대부분의 순위권 논문들은 SlowFast101을 사용했다.
    그리고 pretraining의 경우, Kinetics400보다는 600, 700이 더 성능이 좋았다.
    당연한거지만 성능 차이가 무시 못할 수준이었기 때문에 적어둠. 왜냐면 애플의 경우 Kinetics400 pretrained 사용.

BBOX

  • 애플: SlowFast에서 미리 계산해둔 bbox 사용.
    실제로, mmaction (구버전) 셋업해서 돌려보면 이걸 다운받아서 사용하도록 코딩이 되어있다.
    요즘 open mmlab에서 업뎃중인 mmaction2는 어떤지 모르겠다.
  • ACAR-Net: arXiv preprint arXiv:2007.09861, 2020 (Context-Aware RCNN)에서 사용한 것을 사용

 

몹시 주관적인 의견

  • 현재 논문들만 놓고 보면 fair comparision이 어렵다.
  • R50 8*8만 놓고 비교해보자.
  • AVA 2.1에서 성능이 ACARNet과 애플논문 모두 똑같이 24.8로 적혀있다.
    그런데 ACARNet이 왜 26.71로 적혀있지? 원 논문에서는 28.3인데?
  • 근데 ACAR의 경우 다른 기법들 가져다가 같이 써서 영끌했을 가능성이 있어서,
    feature bank 이런거 순수하게 다 빼놓고 비교했을때 애플 것이 좋을지도 모른다. 아직 확인 안해봤는데, ACARNet의 ours는 그 논문 핵심 아이디어인 액터-컨텍스트-액터 관계를 전부 어텐션 구했다는 것 하나만 쓴게 아닐것 같다.
  • 죄다 어텐션 기반인거면 아무래도 transformer 활용하여 뒷부분 디자인한게 더 좋을 가능성이 높다.
    그러나 트랜스포머 학습이 잘 되긴 할까 의심스럽다.
    ViT 나오자마자 이걸로 action recognition 하겠다고 대충 구현해서 학습해봤었는데, 이 당시에는 pretrained 없으니까 시간은 겁나 걸리고 수렴 안하고 난리났던 악몽이 있어서 내가 트랜스포머에 불신이 생겼기 때문.
    결정적으로, TubeR과 애플은 코드 공개를 안했다!!! ACAR처럼 당당해지란 말이야

 

[arxiv sanity 기준]

검색 키워드: Action Localization, Detection 검색 후 abstract에 AVA 들어가는 것 선택

정렬 기준: arxiv sanity 검색 최신순

  • Spatio-Temporal Context for Action Detection https://arxiv.org/abs/2106.15171v1  
    • 애플에서 나온 논문, 4페이지 짧은 논문, 코드 없음
      애플에서 나왔다니까 당연히 코드가 없을 것 같고 묘한 불신이 생기는건 기분탓인가
    • ACARNet보다 성능 좋다고는 하는데 의심이 생긴다
    • ablation의 부재, 원래 ACAR-Net이 좋은 성능을 낸 셋팅과 비교하지 않음 등을 고려하면 논문 자체에서 검증이 덜 되었기 때문에 굉장히 의구심이 생길 수 밖에 없으나 (게다가 ACARNet 논문 성능에 26.71은 없다),
      실험을 Kinetics400 pretrained에 (600, 700이 아니므로 성능 저하), Depth 50인걸 감안하면 더 좋을지도 모르겠다는 생각이 든다. 
      왜냐면 아키텍쳐 디자인 자체만 놓고보면, (성공적으로 transformer 학습이 되었다는 가정하에) ACAR-Net보다 성능이 좋을 가능성이 있기 때문이다. 
    • 한줄 요약: 그냥 실험 검증이 덜 된 논문이라 아이디어 참고하기엔 나쁘지 않음

왜 50에서만 한거지? 101이 더 좋은데
spatiotemporal context 따로 뽑아서 relation을 디자인. transformer 사용

  • TubeR: Tube-Transformer for Action Detection https://arxiv.org/abs/2104.00969v2 
    • 이게 아쉽게도 ACAR-Net 언급이 없다. 명색이 AVA Action 챌린지 1등 논문이었는데 너무해라
    • 트랜스포머를 썼기땜에 애플 논문이랑 비교하면 재밌을 것 같은데, 성능 비교가 진짜 애매하다.
      Context aware RCNN이랑 비교한것도 아니고.

이 논문에서는 AVA 2.1인지 2.2인지 모르겠음

 

[CVPR 2021 기준]

검색 키워드: Action Localization, Action Detection

 

Action Localization (딱 한편)

  • Actor-Context-Actor Relation Network for Spatio-Temporal Action Localization  https://github.com/Siyu-C/ACAR-Net 
    • AVA Action 챌린지 저번에 1등한 기법
    • 챌린지 2등부터는 간단한 기법들을 사용한 것으로, 새로운 것을 제안하는 형태는 아니었던 것으로 기억. (아닐 수도 있는데 예전에 찾아봤을때 그랬음)
    • 키 프레임 딕텍션: Faster R-CNN with a ResNeXt-101-FPN.
    • 백본: SlowFast101

 

유사할지도 모르는 다른 분야

1. HOI (Human object Interaction Detection): 이미지 도메인

  • Glance and Gaze: Inferring Action-Aware Points for One-Stage Human-Object Interaction Detection
  • End-to-End Human Object Interaction Detection With HOI Transformer
  • QPIC: Query-Based Pairwise Human-Object Interaction Detection With Image-Wide Contextual Information
  • HOTR: End-to-End Human-Object Interaction Detection With Transformers
  • Affordance Transfer Learning for Human-Object Interaction Detection

 

2. Temporal Action Detection

  • Three Birds with One Stone: Multi-Task Temporal Action Detection via Recycling Temporal Annotations
  • WOAD: Weakly Supervised Online Action Detection in Untrimmed Videos
  • 몇가지 더 있었던 것 같으나 패스

 

반응형

댓글