"Refine Myself by Teaching Myself : Feature Refinement via Self-Knowledge Distillation"
soft label 관련 논문이 있어서 구경.
arxiv.org/pdf/2103.08273v1.pdf
주제는 KD.
large teacher model을 학습하는 부담을 줄이기 위해서 self로 KD를 하고 있다.
어떻게? 주로 두가지 방법이 있다고 한다.
1. auxiliary network를 둔다.
2. augmentation based.
문제는 augmentation 기반의 경우, 데이터 어그멘테이션 도중에 인풋 이미지에 손실이 생기는데 이로 인해서 segmentation같은 task에는 적용할 수 없다는 점이다. 그리고 object detection이나 segmentation에서는 정제된 feature map을 받지 않기 때문에 또 문제라고 한다.
이 논문에서는 Feature Refinement via Self-Knowledge Distillation (FRSKD)를 제안한다.
- self-teacher network를 가지고 있음
- classifier network를 위한 knowledge를 transfer함
- soft label과 feature map distillation을 모두 활용.
- local 정보를 해치지 않기 때문에 segmentation에도 적용할 수 있음.
주황색: feature map을 distill
녹색: logit을 distill.
a. 일반적으로 알고있는 pretrained teacher network를 통한 KD.
b. self-knowledge distillation method.
c. auxiliary weak classifier based self KD.
각 레이어별로 weak classifier를 만드는 형태. 그러면 모든 레이어에서 backprop signal을 만들 수 있기 때문이다.
d. proposed. refined feature map을 original classifier한테 보낼 수 있다.
'AIML 분야 > KD, MultiTask, Foundation Model, Fusion등' 카테고리의 다른 글
[Surgical Vision + Transfer Learning] Cross-surgery transfer learning for surgical step recognition 논문 읽기 (0) | 2021.10.27 |
---|---|
[휘리릭 논문 읽기] Multi-Task Self-Training for Learning General Representations (0) | 2021.10.08 |
Born-Again Neural Network 코드 조지기 (0) | 2021.01.04 |
Born-Again Neural Networks 매우 잠깐 구경 (0) | 2020.12.29 |
Data-Efficient KD from a blackbox model 논문 읽기 (0) | 2020.12.16 |
댓글