본문 바로가기
AIML 분야/KD, MultiTask, Foundation Model, Fusion등

Refine Myself by Teaching Myself :Feature Refinement via Self-Knowledge Distillation

by 포숑은 맛있어 2021. 3. 19.
반응형

"Refine Myself by Teaching Myself : Feature Refinement via Self-Knowledge Distillation"

soft label 관련 논문이 있어서 구경.

arxiv.org/pdf/2103.08273v1.pdf           

 

주제는 KD.

large teacher model을 학습하는 부담을 줄이기 위해서 self로 KD를 하고 있다.

어떻게? 주로 두가지 방법이 있다고 한다.

1. auxiliary network를 둔다.

2. augmentation based.

 

문제는 augmentation 기반의 경우, 데이터 어그멘테이션 도중에 인풋 이미지에 손실이 생기는데 이로 인해서 segmentation같은 task에는 적용할 수 없다는 점이다. 그리고 object detection이나 segmentation에서는 정제된 feature map을 받지 않기 때문에 또 문제라고 한다.

 

이 논문에서는 Feature Refinement via Self-Knowledge Distillation (FRSKD)를 제안한다.

  • self-teacher network를 가지고 있음
  • classifier network를 위한  knowledge를 transfer함
  • soft label과 feature map distillation을 모두 활용.
  • local 정보를 해치지 않기 때문에 segmentation에도 적용할 수 있음.

주황색: feature map을 distill

녹색: logit을 distill.

 

a. 일반적으로 알고있는 pretrained teacher network를 통한 KD.

 

b. self-knowledge distillation method.

 

c. auxiliary weak classifier based self KD.

각 레이어별로 weak classifier를 만드는 형태. 그러면 모든 레이어에서 backprop signal을 만들 수 있기 때문이다.

 

d. proposed. refined feature map을 original classifier한테 보낼 수 있다.

 

반응형

댓글