KD를 born again network처럼(?) 써가지고 student가 outperform하게 만드는걸 action recognition에서는 성공한 논문이 없나? 싶어서 서베이중이다. 따라서, 아래 서베이 논문은 모두
- action recognition task를 다룬다.
- KD를 주로 활용했어야하며, contribution이 거기에 있어야함.
- compression에 초점을 뒀다거나, cross-modal 논문들은 제외했음.
cross-modal의 경우 distillation의 이유가 다를 것 같아서. (애초에 데이터셋이 달라서 참고하기 애매함)
물론 나는 서지컬 도메인에서 할거라서 너무 복잡한 베이스라인은 지양하며, 직관적이면서도 이런 접근방식이 의료계에도 잘 된다는걸 보여줄 예정이다. KD가 목적이 아니라 AL 등 다른 기법들을 활용하여 모델과 데이터 관리를 위한 하나의 파이프라인을 구축하는 게 목적이다.
여담인데, 서베이하면서 느끼는거지만 요즘은 어떻게 필요한 task를 잘 정의해서 합리적으로 풀어내는가가 중요한 것 같다.
KD의 최신 서베이 페이퍼. (action만 있지는 않음)
이 논문을 참고하는 이유는, 여기에 action recognition 검색하면 몇편의 논문이 나와서. 일단 여기서 걸러서 보고있다.
AAAI 2020.
2개의 teacher network 사용. Scene, action 등의 정보를 각기 뽑아서 GCN을 통해 합치는 것 같다. teacher network로 pseudo label 만들어서 학습할 것 같이 생겼음.
GCN을 쓰기 때문에 좀 그렇다. 하지만 성능은 확실하고, 데이터셋도 익숙한 그것들이라 넣어놨다.
ECCV 2018. (D3D) ★
일단 든든한 저자. (이름 들어본 대학교와 구글)
이 논문에서는 motion정보에 초점을 둬서 student한테 잘 distillation하려고 하는 것 같다.
그래서 비교실험의 대상이 KD를 쓴 논문이 아니라 speed & accuracy의 trade-off를 맞춰주는게 contribution인 논문이었음.
위 논문 외에 다른 논문은 다 cross-modality에서의 KD이거나 좀 관심사가 다른 논문들이라 제하였다.
CVPR 2019.
task가 좀 다르다. 클립을 다 보지 않았어도 prediction을 하는 모델을 만들고자 한다.
좀 다른 dataset (3D action. 아까 cross-modal에서 본 데이터셋)이 있긴 하지만, 일단 UCF101도 들어가 있기에 넣어놨다.
그리고 LSTM도 사용해야해서 좀 그렇긴 하다.
난 막연히 teacher capacity = student capacity이면서 + teacher는 pre-trained, using only supervised data이고 student는 unlabeled data를 활용해서 KD했으면 student가 outperform 할지도 모른다는 생각에 연구를 시작했다.
현재 계획한 시나리오는 계속 늘어나는 unlabeled data의 활용 (이것까지 써서 모델 성능 올려야함=> self-supervised) + 이것들이 순차별로 annotation되어야함 (AL 필요) + (speed, accuracy등 여러 목적의 모델이 필요해지면) KD를 써서 목적에 맞는 student를 보급용으로 해야하지 않나? 이렇게인데, 사실 AL+self supervised를 teacher에 하면 되는 문제라 video domain에서도 KD로 인한 성능 향상이 가능한지가 핵심이었다. student가 teacher를 outperform 할 수 있나?
사실 이걸 검증하는 게 최우선이다.
원래 AL+KD만 가지고 unsupervised가 가능했는데, self-supervised를 위해 pretext task를 추가해버리면 연구의 목적이 모호해지지 않나 싶다. 으음..
내 생각에는 지금 active learning에 집중할거면 일단 AL strategy에 대한 욕심은 버리고 AL+KD를 생각하고 unlabeled 활용+AL로 데이터 관리 및 기존 네트워크 성능 상향에 집중을 하든가, 아니면 아예 AL을 위한 self supervised learning을 계획하기 위해 KD를 버리는 게 좋을 것 같다.
'AIML 분야 > Video Classification & Detection' 카테고리의 다른 글
논문 읽기: Action Transformer Survey (2) (0) | 2021.01.14 |
---|---|
논문 읽기: Action Transformer Survey (1) (0) | 2021.01.14 |
Video Representation Learning by Dense Predictive Coding (0) | 2020.12.28 |
correspondence에 대해 드는 생각 + 연구해야하는 것? (0) | 2020.12.23 |
Learning Correspondence from the Cycle-consistency of Time (0) | 2020.12.22 |
댓글