본문 바로가기
반응형

아무 말204

(읽다가 잠깐 드랍) Transformer, 진짜 필요할까? (2) 읽다가 드랍한 이유: 동료분이 다음주에 이 논문 발표해준다고 하심 기다려야지~ 저번 논문을 읽고 transformer에 회의적인 이런저런 생각을 하고 있었다. patch 단위로 쪼개서 임베딩 한다음에 각 단어끼리의 관계를 self-attention을 통해 배우던데, patch를 더 작게 하면 문장길이가 길어진다는 단점이 있지 않나? 모델 수렴이 느리다는 것도 단점이고. 게다가 저번 논문에서 mlp가지고 spatial weight matrix 배운거 visualization을 보면, 비전에서는 locality가 강하다는게 눈으로 보였던데다가 내 주관적인 생각으로는 걍 square shape으로도 어느정도 커버가 될것처럼 생겼다. 뭔가 다른 location에 있는 patch간의 relation정보가 많이 중.. 2021. 6. 3.
Transformer, 진짜 필요한건가? [2022 추가] 이 글 왜이렇게 어그로가 끌렸지요?? 블로그 방문자 상위 게시글에 이거 보일때마다 몹시 길티...... 이 글에서 언급한대로 초기 ViT 유행일때는 왜 좋은지 연산 자체에 관심을 두고 비판적인 시각이 많았는데, 이제 transformer에서도 다들 중점을 두고 있는 부분이 아예 달라져서 메타가 바뀜. 처음 ViT 나오면서 아키텍쳐 위주로만 관심을 주던 2020 후반 ~ 2021 상반기 기준 개인적인 생각이며, 현재는 상당히 out-dated된 내용이라는걸 밝힙니다. [2021.08.18] 덧붙이는 말 최근에 백본 조사하면서 보니까 CMT 좋네요...... 아무래도 전에 쓴 글이 신경쓰여 이 말 쓰러 옴 모두 트랜스포머 합시다 ㄱ- 근데 또 EfficientNet V2가 많이 좋음 트랜스.. 2021. 5. 28.
[2021.05.26] 연구노트 보호되어 있는 글 입니다. 2021. 5. 26.
[2021.05.25] 연구일지 (모델 초기 구현, arxiv-sanity 살펴보기) 1. AVA Action이랑 CholecT50 데이터셋을 요즘 보고있다. Spatio-Temporal Action Localization을 보기 위함이다. CholecT50은 bbox annotation이 없어서 엄밀히 말하면 아닌데, 비디오를 더 잘 해석하기 위해서 triplet annotation을 제공하기 때문에 일단 이쪽에서 하고 있다. (수술 도메인) CholecT50을 위한 모델구현이 조금 안정화 되며 + 현재 segmentation 실험이 어느정도 끝나 GPU가 남으면 mmaction2 셋업과 AVA 실험또한 진행할 예정이다. 일단 모델 초안을 대략 구상했고, 그대로 오늘 구현이 끝나서 대충 동작을 하는 것은 확인을 했다. 원래 AlphAction이라는 깃허브 코드를 가져와서 (이유: Slo.. 2021. 5. 25.
A 3D Stereo System to Assist SurgicalTreatment of Prostate Cancer 의료쪽 잘 모르고 그냥 읽는 논문 A 3D Stereo System to Assist Surgical Treatment of Prostate Cancer https://www.researchgate.net/publication/266461371_A_3D_Stereo_System_to_Assist_Surgical_Treatment_of_Prostate_Cancer (PDF) A 3D Stereo System to Assist Surgical Treatment of Prostate Cancer PDF | This paper presents our work to establish the feasibility and utility of a system for guiding robotic removal of th.. 2021. 5. 24.
[Action Detection] ACAR Net "Actor-Context-Actor Relation Network for Spatio-Temporal Action Localization" AVA-Kinetics Challenge에서 1등을 차지한 모델. Kinetics는 딱히 관심 없으나 현재 AVA Action을 셋업중이기에 이 논문을 살펴볼 필요가 있다. 본문에 들어가기에 앞서, 현재까지 진행을 정리하면 이렇다. AVA dataset이 여러가지가 있는데, AVA Action은 버전 2.2까지 나왔다. 이게 내가 다음에 연구해야하는 task와 관련이 있다. 아마 이 데이터셋에 대해서 예전에 블로그에 썼었던것같다. 그래서 이쪽 조사가 필요한데, 마침 mmdetection과 mmsegmentation을 만든 그룹에서 mmaction도 만들었다는 것을 .. 2021. 5. 11.
Video Odometry 연구 시작 - EndoSLAM 셋업해보자 아직 KITTI dataset 리퀘스트 답장이 오지 않았다. 방금 보내고 오는 길이다. 데이터셋을 받는다면 바로 DeepVO, DF-VO를 시도하려고 한다. www.cvlibs.net/datasets/kitti/eval_odometry.php 그래서 EndoSLAM부터 시도하려고 한다. matlab 코드가 있어 꽤 번거롭긴 하겠지만.. 아무튼 EndoSLAM 셋업을 시도 해봐야겠다. ubuntu 18.04, 도커 사용. 샘플 데이터는 500MB 정도이다. 풀데이터는 현재 공개 되어있지 않다. 3월말 기준으로, 깃허브 이슈상에서는 몇주 후에 오픈소스로 제공하겠다고 하였으나 5월초인 아직까지 풀데이터가 올라오진 않았다. Pretrained model도 제공되는데, 200MB 정도 용량. cd ~ git cl.. 2021. 5. 4.
Video Odometry? SLAM? SfM? 아무튼 살펴본다. Video Odometry? 아무튼 전혀 알 수 없는 분야 공부가 필요해졌다. 자꾸 나오는 SLAM과 SfM이 뭔지부터 공부를 해야할듯 싶다. 진짜 하나도 모르겠어서 닥치는대로 본다 일단. 간단한 박사님의 설명 SfM을 가지고 SLAM을 달성한다고 보는게 더 직관적. Structure from motion은 말 그대로 주변 물체의 구조나 센서에서 잡힌 주변 정보로 모션을 측정해서 형태를 복원하는 과정. SLAM은 simultaneos localization and mapping이어서, 현재 visual camera의 위치를 추정하는 문제이다. SLAM에서 종종 SfM을 활용하기도하고, 딥러닝에서는 아예 다른 방식으로 풀고있다. 이 자료를 ettrends.etri.re.kr/ettrends/106/0905.. 2021. 5. 1.
Action Recognition보다 디테일한 Video 인식분야 조사 서론 이미지 인식에서 가장 흔하고 일반적인 task라고 하면 image classification이다. 비디오로 넘어오면 video classification? action recognition이라고 부르는 분야가 있다. 주어진 클립의 class를 인식하는 분야이다. image에서는 segmentation, detection 등으로 확장시켰는데, 마찬가지로 비디오에서도 더 디테일한 인식 분야가 없을까? 이에 대한 서베이 내용이다. 몇가지 살펴본 키워드는 다음과 같다. 1. Action Localization (Action Detection이라고 부름) 알아보기 AVA-Action Dataset openaccess.thecvf.com/content_cvpr_2018/papers/Gu_AVA_A_Video_.. 2021. 4. 23.
Refine Myself by Teaching Myself :Feature Refinement via Self-Knowledge Distillation "Refine Myself by Teaching Myself : Feature Refinement via Self-Knowledge Distillation" soft label 관련 논문이 있어서 구경. arxiv.org/pdf/2103.08273v1.pdf 주제는 KD. large teacher model을 학습하는 부담을 줄이기 위해서 self로 KD를 하고 있다. 어떻게? 주로 두가지 방법이 있다고 한다. 1. auxiliary network를 둔다. 2. augmentation based. 문제는 augmentation 기반의 경우, 데이터 어그멘테이션 도중에 인풋 이미지에 손실이 생기는데 이로 인해서 segmentation같은 task에는 적용할 수 없다는 점이다. 그리고 object detec.. 2021. 3. 19.
NVAE: A Deep Hierarchical Variational Autoencoder 읽기 VAE가 뭔지도 다 까먹었겠다, 읽으면서 쓰는 글. arxiv.org/pdf/2007.03898v3.pdf github.com/NVlabs/NVAE ichi.pro/ko/vae-variational-auto-encoder-leul-sayonghan-saengseong-modelling-277371603749134 논문이랑 엄청나게 상관은 없겠지만 VAE를 까먹어서 떠올리는 글 제목 NVAE. 일단 generative model이다. CelebA dataset 비슷한게 보이는데, 보통 image generation하면 GAN이 많이 떠오르는데 VAE를 쓰긴 하나보다 싶다. VAE는 AutoEncoder 구조에서 중간에 Latent variable에 mu, variance가 들어가는걸로 알고 있다. 이렇게 .. 2021. 3. 10.
[2021.03.09] arxiv sanity 구경 1달 기준으로 top recent 부터 보고 있다. 1. "Patterns, predictions, and actions: A story about machine learning" 머신러닝 책이 나왔다. 부족한 수학공부를 하기 위해 한번 읽어봐야할 것 같다. 300페이지 정도의 분량이다. arxiv.org/abs/2102.05242v1 2. "How to represent part-whole hierarchies in a neural network" 힌튼 교수님의 논문이다. 읽으려다가 분량이 많아 안봤는데 capsnet이 어떤 의도로 만들어졌던건지부터 보고 와야할 것 같은 기분이 든다. 3. "Do Transformer Modifications Transfer Across Implementations a.. 2021. 3. 9.
[2021.03.08 연구노트] KD, Semi-Supervised Learning에 대한 고민 현황 현재 Active Learning 연구를 하고 있다. 일반적인 active learning처럼 각 learning cycle마다 다른 데이터를 고르도록 한다. 다시 학습하는김에(weight init하진 않으나) 이전 learning cycle의 lash epoch을 teacher로 삼고 knowledge distillation을 하여 Born Again Neural Network처럼 동작하도록 만들었다. 그 과정에서 각 Learning cycle에 student model이 어떻게 학습되는지에 대해 이런저런 실험을 하고 있다. [선택 1] unlabeled pool에 있는 데이터를 활용한 semi-supervised learning. 간단하게 teacher의 output을 soft label로 사용.. 2021. 3. 8.
Implicit Regularization in Tensor Factorization 읽으면서 쓰는 글. 중간에 드랍할 수 있음. 이해한 바를 토대로 작성했으며 직역/뇌내 해석이다. 최근 arxiv sanity에 top recent라서 가져왔다. 이름부터 심상치 않은 개념을 담고 있을 것 같은 느낌이 드는 논문이다. arxiv.org/pdf/2102.09972.pdf 신기하게도 코드까지 있다. github.com/noamrazin/imp_reg_in_tf 우선 이 논문은 implicit regularization(-> generalization)에 대한 논문이다. 참고로 아래부터 계속 언급할 텐서는 Domain X를 의미한다. tensor factorization이라는 방법을 사용하는 것 같은데, 어떻게 텐서를 분해하겠다는건지 아직은 모르겠으나, 어떤 텐서가 담고 있는 정보의 내재적인 요.. 2021. 3. 4.
[2021.03.04 연구노트] Deep Neural Network Visualization? 다시 실험을 쭉 돌려놨으니 논문 찾아볼 시간이 생겼다. 이쪽을 공부해본적이 없는 것 같아서 당분간 찾아보려고 한다. 뭘 봐야하는지조차 모르겠어서 일단 단어만 찾아봤는데, t-sne가 많이 언급된다. t-sne가 video domain에서도 되는지 모르겠어서 이것만 더 찾아보고 바로 t-sne 공부로 넘어가려고 한다. Keywords Class Activation Map (CAM) Visualization t-Stochastic Neighbor Embedding (t-SNE) 같이볼 것. visualization 관련 글. medium.com/analytics-vidhya/deep-learning-visualization-and-interpretation-of-neural-networks-2f3f82f50.. 2021. 3. 4.
반응형