반응형 Vision Transformer1 Transformer와 CNN과 융합, 최강의 backbone 서베이 해보기? (EfficientNet V2, CMT, ViT, DeiT, Swin 등) 딥러닝 아키텍쳐 진짜 아무말. 디자인 하며 고민한 것과 서베이 내용을 다루는 글이다. 완전 딴 소리 TMI 더보기 성능 올리는 생각을 하면서 엉성하게나마 모델 고안을 하다보니, 요즘 관심사는 아무래도 'SOTA 모델들이 왜 성능이 좋은가?' 이다. 아키텍쳐 만들려고 하니까 연산 하나하나 단위가 중요했다. 학부때 처음 딥러닝을 접했을때는 Depthwise convolution같은거 그냥 검색해서 어떤 연산인지 보고 설명 이해하고 흘러 넘겼는데, 이젠 각각을 다시 봐야겠다는 마음이 들기 시작했다. 현재 풀고싶은 task가 있는데, SOTA 모델의 단점이 뭔지 생각해보고 개선할 수 있도록 하는게 목표다. 성능이 아직 높지 않은 어려운 task이기 때문이다. 그러려면 먼저 이미 있는 모델들을 서베이하고 이해해야.. 2021. 8. 4. 이전 1 다음 반응형