본문 바로가기
AIML 분야/Video Classification & Detection

[20201229] Action Recognition + KD Survey 대충

by 포숑은 맛있어 2020. 12. 29.
반응형

KD를 born again network처럼(?) 써가지고 student가 outperform하게 만드는걸 action recognition에서는 성공한 논문이 없나? 싶어서 서베이중이다. 따라서, 아래 서베이 논문은 모두 

  • action recognition task를 다룬다.
  • KD를 주로 활용했어야하며, contribution이 거기에 있어야함.
  • compression에 초점을 뒀다거나, cross-modal 논문들은 제외했음.
    cross-modal의 경우 distillation의 이유가 다를 것 같아서. (애초에 데이터셋이 달라서 참고하기 애매함)

물론 나는 서지컬 도메인에서 할거라서 너무 복잡한 베이스라인은 지양하며, 직관적이면서도 이런 접근방식이 의료계에도 잘 된다는걸 보여줄 예정이다. KD가 목적이 아니라 AL 등 다른 기법들을 활용하여 모델과 데이터 관리를 위한 하나의 파이프라인을 구축하는 게 목적이다.

 

여담인데, 서베이하면서 느끼는거지만 요즘은 어떻게 필요한 task를 잘 정의해서 합리적으로 풀어내는가가 중요한 것 같다.

 

KD의 최신 서베이 페이퍼. (action만 있지는 않음)

이 논문을 참고하는 이유는, 여기에 action recognition 검색하면 몇편의 논문이 나와서. 일단 여기서 걸러서 보고있다.

arxiv.org/pdf/2006.05525.pdf

 

AAAI 2020. 

2개의 teacher network 사용. Scene, action 등의 정보를 각기 뽑아서 GCN을 통해 합치는 것 같다. teacher network로 pseudo label 만들어서 학습할 것 같이 생겼음.

GCN을 쓰기 때문에 좀 그렇다. 하지만 성능은 확실하고, 데이터셋도 익숙한 그것들이라 넣어놨다.

arxiv.org/pdf/2002.07471.pdf

 

ECCV 2018. (D3D)

일단 든든한 저자. (이름 들어본 대학교와 구글)

이 논문에서는 motion정보에 초점을 둬서 student한테 잘 distillation하려고 하는 것 같다.

그래서 비교실험의 대상이 KD를 쓴 논문이 아니라 speed & accuracy의 trade-off를 맞춰주는게 contribution인 논문이었음.

arxiv.org/pdf/1812.08249.pdf

 

위 논문 외에 다른 논문은 다 cross-modality에서의 KD이거나 좀 관심사가 다른 논문들이라 제하였다.

 

CVPR 2019.

task가 좀 다르다. 클립을 다 보지 않았어도 prediction을 하는 모델을 만들고자 한다.

좀 다른 dataset (3D action. 아까 cross-modal에서 본 데이터셋)이 있긴 하지만, 일단 UCF101도 들어가 있기에 넣어놨다.

그리고 LSTM도 사용해야해서 좀 그렇긴 하다.

openaccess.thecvf.com/content_CVPR_2019/papers/Wang_Progressive_Teacher-Student_Learning_for_Early_Action_Prediction_CVPR_2019_paper.pdf

 

 

 

난 막연히 teacher capacity = student capacity이면서 + teacher는 pre-trained, using only supervised data이고 student는 unlabeled data를 활용해서 KD했으면 student가 outperform 할지도 모른다는 생각에 연구를 시작했다.

 

현재 계획한 시나리오는 계속 늘어나는 unlabeled data의 활용 (이것까지 써서 모델 성능 올려야함=> self-supervised) + 이것들이 순차별로 annotation되어야함 (AL 필요) + (speed, accuracy등 여러 목적의 모델이 필요해지면) KD를 써서 목적에 맞는 student를 보급용으로 해야하지 않나? 이렇게인데, 사실 AL+self supervised를 teacher에 하면 되는 문제라 video domain에서도 KD로 인한 성능 향상이 가능한지가 핵심이었다. student가 teacher를 outperform 할 수 있나?

사실 이걸 검증하는 게 최우선이다.

 

원래 AL+KD만 가지고 unsupervised가 가능했는데, self-supervised를 위해 pretext task를 추가해버리면 연구의 목적이 모호해지지 않나 싶다. 으음..

 

내 생각에는 지금 active learning에 집중할거면 일단 AL strategy에 대한 욕심은 버리고 AL+KD를 생각하고 unlabeled 활용+AL로 데이터 관리 및 기존 네트워크 성능 상향에 집중을 하든가, 아니면 아예 AL을 위한 self supervised learning을 계획하기 위해 KD를 버리는 게 좋을 것 같다.

반응형

댓글