본문 바로가기
반응형

AIML 분야/Vision Transformer7

Masked Autoencoders Are Scalable Vision Learner + 여담 논문 읽으면서 정리 + 주절주절 아무말 간지나는 논문이 나왔으니 읽어주는게 인지상정이다. Masked Autoencoders Are Scalable Vision Learner FAIR AutoEncoder는? Encoder-Decoder 형태의 아키텍쳐이며, 좋은 인코더 얻으려고 학습한다. representation learning의 관점. 디코더를 통해 input을 복원하도록 loss를 학습시키면, 핵심적인 시맨틱을 가지는 좋은 feature를 뽑도록 네트워크가 훈련될테니까. (VAE와 비교해서 설명하는 글이 많이 있으니 모르면 찾아보도록 하자. 얘는 반대로 생성을 잘하기 위한, decoder를 얻는게 목적인 구조이다. 어쨌거나.) Denoising Auto Encoder (DAE)도 있는데, 말그대로.. 2021. 12. 1.
Transformer와 CNN과 융합, 최강의 backbone 서베이 해보기? (EfficientNet V2, CMT, ViT, DeiT, Swin 등) 딥러닝 아키텍쳐 진짜 아무말. 디자인 하며 고민한 것과 서베이 내용을 다루는 글이다. 완전 딴 소리 TMI 더보기 성능 올리는 생각을 하면서 엉성하게나마 모델 고안을 하다보니, 요즘 관심사는 아무래도 'SOTA 모델들이 왜 성능이 좋은가?' 이다. 아키텍쳐 만들려고 하니까 연산 하나하나 단위가 중요했다. 학부때 처음 딥러닝을 접했을때는 Depthwise convolution같은거 그냥 검색해서 어떤 연산인지 보고 설명 이해하고 흘러 넘겼는데, 이젠 각각을 다시 봐야겠다는 마음이 들기 시작했다. 현재 풀고싶은 task가 있는데, SOTA 모델의 단점이 뭔지 생각해보고 개선할 수 있도록 하는게 목표다. 성능이 아직 높지 않은 어려운 task이기 때문이다. 그러려면 먼저 이미 있는 모델들을 서베이하고 이해해야.. 2021. 8. 4.
(읽다가 잠깐 드랍) Transformer, 진짜 필요할까? (2) 읽다가 드랍한 이유: 동료분이 다음주에 이 논문 발표해준다고 하심 기다려야지~ 저번 논문을 읽고 transformer에 회의적인 이런저런 생각을 하고 있었다. patch 단위로 쪼개서 임베딩 한다음에 각 단어끼리의 관계를 self-attention을 통해 배우던데, patch를 더 작게 하면 문장길이가 길어진다는 단점이 있지 않나? 모델 수렴이 느리다는 것도 단점이고. 게다가 저번 논문에서 mlp가지고 spatial weight matrix 배운거 visualization을 보면, 비전에서는 locality가 강하다는게 눈으로 보였던데다가 내 주관적인 생각으로는 걍 square shape으로도 어느정도 커버가 될것처럼 생겼다. 뭔가 다른 location에 있는 patch간의 relation정보가 많이 중.. 2021. 6. 3.
Transformer, 진짜 필요한건가? [2022 추가] 이 글 왜이렇게 어그로가 끌렸지요?? 블로그 방문자 상위 게시글에 이거 보일때마다 몹시 길티...... 이 글에서 언급한대로 초기 ViT 유행일때는 왜 좋은지 연산 자체에 관심을 두고 비판적인 시각이 많았는데, 이제 transformer에서도 다들 중점을 두고 있는 부분이 아예 달라져서 메타가 바뀜. 처음 ViT 나오면서 아키텍쳐 위주로만 관심을 주던 2020 후반 ~ 2021 상반기 기준 개인적인 생각이며, 현재는 상당히 out-dated된 내용이라는걸 밝힙니다. [2021.08.18] 덧붙이는 말 최근에 백본 조사하면서 보니까 CMT 좋네요...... 아무래도 전에 쓴 글이 신경쓰여 이 말 쓰러 옴 모두 트랜스포머 합시다 ㄱ- 근데 또 EfficientNet V2가 많이 좋음 트랜스.. 2021. 5. 28.
[연구노트] CNN 안쓰는 3D Transformer를 만들어봤음 (for video action recognition) 잘 되었다면 아마 이 글을 안쓰고 논문으로 썼겠지. 음. ViT 기반에다가 나름의 아이디어를 추가한거기 때문에 구현은 딱히 별거 없었음. 물론 추가 아이디어로 계획해놨던게 있고, 이걸로 개선이 있을 것으로 보이지만 초기 실험결과가 너무 슬펐기 때문에 실험을 더 하진 않을 것 같음. GPU가 모자라. + pretrained model을 직접 만드는 게 얼마나 끔찍한(?) 일인지 저번 연구로 알게되어서, 당분간 아키텍쳐를 직접 만드는 짓은 하지 않을 것 같다. 특히 비디오 데이터셋에서! 결과. 내 실험에서는 CNN 아예 안씀. 최근에 temporal GAP를 transformer로 대체한 연구는 있었는데, CNN을 아예 안쓴 연구는 아직까지 안보임. 학습이 안 되지는 않음. 분명히 성능은 오르고 있다. SV.. 2021. 2. 14.
[작성중] Deformable DETR: Deformable Transformers for End-to-end Object Detection 논문을 대략 읽어보면서 쓰는 글. 유투브에서 리뷰 영상을 봤는데 그래서 모델 component 각각에서 input/output이 어떻게 된다는건지 정확히 모르겠어서 대략 다시 보려고 한다. What is the paper about? - Task : Object Detection - Main idea : transformer를 사용함으로써 end-to-end가 되었다. - Details transformer를 대충 번역기처럼 생각했을때, output은 원래 번역된 각각의 단어처럼 나올건데, 여기서는 각 output 덩어리가 box prediction들을 의미한다. 원래 object detection에서 각 proposal에 대해 object인지/아닌지, class는 뭔지 두가지를 알려주는 head가 있었.. 2020. 12. 24.
[ViT 논문] Image Recognition without CNNs? - Transformer! 이 논문 막 읽기 시작했다. 원래 논문을 구글독스에 주절거리며 읽는 편이라 그냥 여기다 썼다. 의식의 흐름대로 논문 읽어보기. Title : AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE https://openreview.net/pdf?id=YicbFdNTTy ICLR 2021 리뷰중이라는 논문. Transformer만 사용해서 이미지처리를 한다?! 1. 원래 이럴땐 성능부터 보는거다. Accuracy를 보자. 보고왔는데 그냥 그렇다. ResNet, EfficientNet이랑 비교한 것 처럼 나와있는데 EfficientNet은 비어있는 것도 많다. 그리고 ResNet152도 아니고 ResNet152x4는 뭐지? 설명 .. 2020. 10. 30.
반응형