본문 바로가기
AIML 분야/Vision Transformer

(읽다가 잠깐 드랍) Transformer, 진짜 필요할까? (2)

by 포숑은 맛있어 2021. 6. 3.
반응형

읽다가 드랍한 이유: 동료분이 다음주에 이 논문 발표해준다고 하심

기다려야지~


 

저번 논문을 읽고 transformer에 회의적인 이런저런 생각을 하고 있었다.

 

patch 단위로 쪼개서 임베딩 한다음에 각 단어끼리의 관계를 self-attention을 통해 배우던데, patch를 더 작게 하면 문장길이가 길어진다는 단점이 있지 않나?
모델 수렴이 느리다는 것도 단점이고.

게다가 저번 논문에서 mlp가지고 spatial weight matrix 배운거 visualization을 보면, 비전에서는 locality가 강하다는게 눈으로 보였던데다가 내 주관적인 생각으로는 걍 square shape으로도 어느정도 커버가 될것처럼 생겼다. 뭔가 다른 location에 있는 patch간의 relation정보가 많이 중요했다면 그게 mlp visualization에서 보였어야하는거 아닐까? 난 이것땜에 transformer가 convolution연산을 대체하는데에는 보수적으로 보게 되었다. DETR처럼 비전에 다르게 활용할수야 있겠지만.

 

그러던 중에 아카이브에서 이런 논문을 발견했다.

(읽으면서 대충 쓰는 글)

 

"Intriguing Properties of Vision Transformers"

https://arxiv.org/pdf/2105.10497v1.pdf 

 

실험을 통해서 transformer가 CNN보다 occlusion같은데에 굉장히 강하는 등의 결과를 얻었는데, 이를 통해서 generalization이 더 잘 되는 강점이 있음을 설명한다.

 

 

Introduction.

  • robustness가 중요하다. 꼭 성능때문만은 아니고, 자율주행이라든가 헬스케어처럼 safety-critical applications를 따지면 더더욱.
  • 그래서 이 논문에서 CNN과 transformer를 robustness 관점에서 비교해봤다고 한다.
    self-attention과 conv연산이 어떻게 다를까?
  • transformer: ViT, DeiT, T2T
  • 여기서 CNN 모델은 뭘 썼는지 이름이 안나와서 살짝 불길했다.

 

각종 변형들.

그중에서 occlusion 종류.

 

 

실험결과.

음 근데 첫 column을 보면 resnet50이 가장 robust해서 이걸 baseline으로 삼았다고 하는데.

CNN쪽 모델이 다 좀 옛날거 아닌가? 백본 나온거 많은데... EfficientNet 같은것도 한번 비교해주지..

 

근데 CNN 계열이랑 transformer계열 각각이 끼리끼리 커브 자체가 비슷하게 생겨가지고 경향은 크게 안 바뀔 것 같다는 생각이 든다.

 

 

아래 visualization은 occlusion이 있을때 모델이 occlusion 없는 곳에 잘 집중한다는 것을 보여준다.

 

 

반응형

댓글