[20201229] Action Recognition + KD Survey 대충

KD를 born again network처럼(?) 써가지고 student가 outperform하게 만드는걸 action recognition에서는 성공한 논문이 없나? 싶어서 서베이중이다. 따라서, 아래 서베이 논문은 모두

action recognition task를 다룬다.
KD를 주로 활용했어야하며, contribution이 거기에 있어야함.
compression에 초점을 뒀다거나, cross-modal 논문들은 제외했음.
cross-modal의 경우 distillation의 이유가 다를 것 같아서. (애초에 데이터셋이 달라서 참고하기 애매함)

물론 나는 서지컬 도메인에서 할거라서 너무 복잡한 베이스라인은 지양하며, 직관적이면서도 이런 접근방식이 의료계에도 잘 된다는걸 보여줄 예정이다. KD가 목적이 아니라 AL 등 다른 기법들을 활용하여 모델과 데이터 관리를 위한 하나의 파이프라인을 구축하는 게 목적이다.

여담인데, 서베이하면서 느끼는거지만 요즘은 어떻게 필요한 task를 잘 정의해서 합리적으로 풀어내는가가 중요한 것 같다.

KD의 최신 서베이 페이퍼. (action만 있지는 않음)

이 논문을 참고하는 이유는, 여기에 action recognition 검색하면 몇편의 논문이 나와서. 일단 여기서 걸러서 보고있다.

arxiv.org/pdf/2006.05525.pdf

AAAI 2020.

2개의 teacher network 사용. Scene, action 등의 정보를 각기 뽑아서 GCN을 통해 합치는 것 같다. teacher network로 pseudo label 만들어서 학습할 것 같이 생겼음.

GCN을 쓰기 때문에 좀 그렇다. 하지만 성능은 확실하고, 데이터셋도 익숙한 그것들이라 넣어놨다.

arxiv.org/pdf/2002.07471.pdf

ECCV 2018. (D3D) ★

일단 든든한 저자. (이름 들어본 대학교와 구글)

이 논문에서는 motion정보에 초점을 둬서 student한테 잘 distillation하려고 하는 것 같다.

그래서 비교실험의 대상이 KD를 쓴 논문이 아니라 speed & accuracy의 trade-off를 맞춰주는게 contribution인 논문이었음.

arxiv.org/pdf/1812.08249.pdf

위 논문 외에 다른 논문은 다 cross-modality에서의 KD이거나 좀 관심사가 다른 논문들이라 제하였다.

CVPR 2019.

task가 좀 다르다. 클립을 다 보지 않았어도 prediction을 하는 모델을 만들고자 한다.

좀 다른 dataset (3D action. 아까 cross-modal에서 본 데이터셋)이 있긴 하지만, 일단 UCF101도 들어가 있기에 넣어놨다.

그리고 LSTM도 사용해야해서 좀 그렇긴 하다.

openaccess.thecvf.com/content_CVPR_2019/papers/Wang_Progressive_Teacher-Student_Learning_for_Early_Action_Prediction_CVPR_2019_paper.pdf

난 막연히 teacher capacity = student capacity이면서 + teacher는 pre-trained, using only supervised data이고 student는 unlabeled data를 활용해서 KD했으면 student가 outperform 할지도 모른다는 생각에 연구를 시작했다.

현재 계획한 시나리오는 계속 늘어나는 unlabeled data의 활용 (이것까지 써서 모델 성능 올려야함=> self-supervised) + 이것들이 순차별로 annotation되어야함 (AL 필요) + (speed, accuracy등 여러 목적의 모델이 필요해지면) KD를 써서 목적에 맞는 student를 보급용으로 해야하지 않나? 이렇게인데, 사실 AL+self supervised를 teacher에 하면 되는 문제라 video domain에서도 KD로 인한 성능 향상이 가능한지가 핵심이었다. student가 teacher를 outperform 할 수 있나?

사실 이걸 검증하는 게 최우선이다.

원래 AL+KD만 가지고 unsupervised가 가능했는데, self-supervised를 위해 pretext task를 추가해버리면 연구의 목적이 모호해지지 않나 싶다. 으음..

내 생각에는 지금 active learning에 집중할거면 일단 AL strategy에 대한 욕심은 버리고 AL+KD를 생각하고 unlabeled 활용+AL로 데이터 관리 및 기존 네트워크 성능 상향에 집중을 하든가, 아니면 아예 AL을 위한 self supervised learning을 계획하기 위해 KD를 버리는 게 좋을 것 같다.

저작자표시

'AIML 분야 > Video Classification & Detection' 카테고리의 다른 글

논문 읽기: Action Transformer Survey (2) (0)	2021.01.14
논문 읽기: Action Transformer Survey (1) (0)	2021.01.14
Video Representation Learning by Dense Predictive Coding (0)	2020.12.28
correspondence에 대해 드는 생각 + 연구해야하는 것? (0)	2020.12.23
Learning Correspondence from the Cycle-consistency of Time (0)	2020.12.22

딥러닝을 해보아요

[20201229] Action Recognition + KD Survey 대충

'AIML 분야 > Video Classification & Detection' 카테고리의 다른 글

댓글

티스토리툴바

[20201229] Action Recognition + KD Survey 대충

'AIML 분야 > Video Classification & Detection' 카테고리의 다른 글

관련글

댓글

티스토리툴바