본문 바로가기
반응형

AIML 분야102

Action Localization (Spatial Temporal Action Detection) 서베이 2 저번에는 Action Localization 분야에 대략 어떤 논문들이 있나 리스트를 뽑았었다. 한번 읽어보자. 1. Spatio-Temporal Context for Action Detection (줄여서 애플 논문) 4페이지짜리 숏페이퍼. CVPR 워크샵 논문이라고 한다. ablation만 추가로 해서 메인에 내도 승산 있을텐데 왜지 => 다 읽고나니 왜 워크샵에 냈는지 알 것 같다 Abstract. 최근 연구들은 거의 temporal information은 aggregation된 feature를 사용했는데, 이 논문에서는 그러지 않겠다고 말한다. short range temporal interaction을 배우기 위해 two cross attention blocks를 사용. 그림을 보면, bbox가.. 2021. 7. 19.
Action Localization (Spatial Temporal Action Detection) 서베이 1 뭐 좀 아이디어 없나 생각하려고 휘리릭 찾아봤다. 몇가지 기억을 더듬어 추가. 따라서, 기억 왜곡이 있을 수 있다. [현재까지 본 것 요약] Backbone ACAR-Net과 애플논문은 모두 SlowFast를 사용했다. 단, 애플의 경우 SlowFast50 8*8만 실험했음. 저번 AVA Action 챌린지 결과를 보면 대부분의 순위권 논문들은 SlowFast101을 사용했다. 그리고 pretraining의 경우, Kinetics400보다는 600, 700이 더 성능이 좋았다. 당연한거지만 성능 차이가 무시 못할 수준이었기 때문에 적어둠. 왜냐면 애플의 경우 Kinetics400 pretrained 사용. BBOX 애플: SlowFast에서 미리 계산해둔 bbox 사용. 실제로, mmaction (구버전.. 2021. 7. 16.
GAN Cocktail: 학습된 GAN 모델을 합친다고? GAN Cocktail: mixing GANs without dataset access arxiv sanity top recent에 랭크된 논문. 일단 제목이 시선강탈이기는 하다. https://arxiv.org/pdf/2106.03847v1.pdf 저자들이 예루살렘에 있는 대학이라는데. 이스라엘의 딥러닝을 맛볼 수 있는건가요? 슬픈 DF-VO 논문이 넘 안읽히는 관계로 다른걸 기웃거리고 있다. 좋아. 주제 일단 주제는 흔하지 않다. 누가 GAN을 합치긴 합쳐? 조건으로는, 모델 크기가 커지지 않을 것. 모델 두개를 대충 붙이는 게 아니다. 각각의 모델들을 학습시켰던 데이터에 접근할 수 었는 상황을 가정한다. 요런 셋팅에서 시도하는건 본인들이 최초라고 한다. 다시 말해, data를 모르고 그냥 다른 도메.. 2021. 7. 2.
대충 빠르게 읽어보는 KITTI dataset 논문 [2022 추가] 제가 카메라랑 depth estimation을 시작할지는 꿈에도 몰랐네요 과거에 이런 글을 쓰다니.... 데이터 다운받고 관련 논문 읽는건 요즘 포스팅중. 그나저나 현대차 주가 언제 오를거임? ㅡㅡㅡ Visual Odometry 데이터셋을 사용하고싶다. 그런데 공홈에 별로 설명이 없다. 귀찮아서 사실 이것까지 보고싶진 않았는데, camera calibration도 공부해야하고 데이터셋에 들어있는 각 파라미터 의미가 뭔지 설명이 제대로 없어가지고 도통 알아먹을수가 없어서 읽어야겠다. 자율주행 궁금하기도 했으니 KITTI dataset 논문을 보자. 현대차 주주니까! 굿 "Are we ready for Autonomous Driving? The KITTI Vision Benchmark Su.. 2021. 6. 30.
DF-VO 논문 리뷰 & 코드 셋업해보기 아래 깃허브는 두 논문에 대한 코드 Visual Odometry Revisited: What Should Be Learnt? DF-VO: What Should Be Learnt for Visual Odometry? https://github.com/Huangying-Zhan/DF-VO KITTI Dataset도 미리미리 잘 다운 받아주자. 링크 요청하면 빨리 왔다. 과정 (별거없음) conda를 사용하라고 한다. 매우 살짝 빈정이 상하지만 도커 위에 얹어보기로 한다... 난 도커가 있어야하니까 설치하는동안 KITTI Odometry 데이터셋 압축을 풀어주자. 압축해제가 오래 걸린다. 심볼릭 링크를 추가하라는데 귀찮아서 안했다. 뭐... config 파일 바꿔주자 import 에러: libs가 없다고 뜬다.. 2021. 6. 17.
[논문리뷰] Transformer + GAN에 관한 논문 리뷰 논문 두개 대충 봐야지 Transformer-based GAN 논문이 있고, Transformer Generator + CNN Discriminator 논문이 있다. 후자가 더 나중에 나왔다. 1. "TransGAN: Two Transformers Can Make One Strong GAN" [요약] transformer만 활용한 아키텍쳐에 대한 고찰이 주된 주제. Transformer 기반의 Discriptor는 그냥은 안좋다. 여러 문제점이 있다. CNN Discriptor를 사용한 두 경우가 성능이 좋았는데, 이걸 끌어올리려는 노력보다는 그냥 transformer의 한계를 보고싶었던 듯. 그래서 여러 기법으로 영끌하면 AutoGAN 정도의 성능은 transformer만으로도 달성 가능하다는 것을 입.. 2021. 6. 15.
(읽다가 잠깐 드랍) Transformer, 진짜 필요할까? (2) 읽다가 드랍한 이유: 동료분이 다음주에 이 논문 발표해준다고 하심 기다려야지~ 저번 논문을 읽고 transformer에 회의적인 이런저런 생각을 하고 있었다. patch 단위로 쪼개서 임베딩 한다음에 각 단어끼리의 관계를 self-attention을 통해 배우던데, patch를 더 작게 하면 문장길이가 길어진다는 단점이 있지 않나? 모델 수렴이 느리다는 것도 단점이고. 게다가 저번 논문에서 mlp가지고 spatial weight matrix 배운거 visualization을 보면, 비전에서는 locality가 강하다는게 눈으로 보였던데다가 내 주관적인 생각으로는 걍 square shape으로도 어느정도 커버가 될것처럼 생겼다. 뭔가 다른 location에 있는 patch간의 relation정보가 많이 중.. 2021. 6. 3.
Transformer, 진짜 필요한건가? [2022 추가] 이 글 왜이렇게 어그로가 끌렸지요?? 블로그 방문자 상위 게시글에 이거 보일때마다 몹시 길티...... 이 글에서 언급한대로 초기 ViT 유행일때는 왜 좋은지 연산 자체에 관심을 두고 비판적인 시각이 많았는데, 이제 transformer에서도 다들 중점을 두고 있는 부분이 아예 달라져서 메타가 바뀜. 처음 ViT 나오면서 아키텍쳐 위주로만 관심을 주던 2020 후반 ~ 2021 상반기 기준 개인적인 생각이며, 현재는 상당히 out-dated된 내용이라는걸 밝힙니다. [2021.08.18] 덧붙이는 말 최근에 백본 조사하면서 보니까 CMT 좋네요...... 아무래도 전에 쓴 글이 신경쓰여 이 말 쓰러 옴 모두 트랜스포머 합시다 ㄱ- 근데 또 EfficientNet V2가 많이 좋음 트랜스.. 2021. 5. 28.
A 3D Stereo System to Assist SurgicalTreatment of Prostate Cancer 의료쪽 잘 모르고 그냥 읽는 논문 A 3D Stereo System to Assist Surgical Treatment of Prostate Cancer https://www.researchgate.net/publication/266461371_A_3D_Stereo_System_to_Assist_Surgical_Treatment_of_Prostate_Cancer (PDF) A 3D Stereo System to Assist Surgical Treatment of Prostate Cancer PDF | This paper presents our work to establish the feasibility and utility of a system for guiding robotic removal of th.. 2021. 5. 24.
[Action Detection] ACAR Net "Actor-Context-Actor Relation Network for Spatio-Temporal Action Localization" AVA-Kinetics Challenge에서 1등을 차지한 모델. Kinetics는 딱히 관심 없으나 현재 AVA Action을 셋업중이기에 이 논문을 살펴볼 필요가 있다. 본문에 들어가기에 앞서, 현재까지 진행을 정리하면 이렇다. AVA dataset이 여러가지가 있는데, AVA Action은 버전 2.2까지 나왔다. 이게 내가 다음에 연구해야하는 task와 관련이 있다. 아마 이 데이터셋에 대해서 예전에 블로그에 썼었던것같다. 그래서 이쪽 조사가 필요한데, 마침 mmdetection과 mmsegmentation을 만든 그룹에서 mmaction도 만들었다는 것을 .. 2021. 5. 11.
Video Odometry 연구 시작 - EndoSLAM 셋업해보자 아직 KITTI dataset 리퀘스트 답장이 오지 않았다. 방금 보내고 오는 길이다. 데이터셋을 받는다면 바로 DeepVO, DF-VO를 시도하려고 한다. www.cvlibs.net/datasets/kitti/eval_odometry.php 그래서 EndoSLAM부터 시도하려고 한다. matlab 코드가 있어 꽤 번거롭긴 하겠지만.. 아무튼 EndoSLAM 셋업을 시도 해봐야겠다. ubuntu 18.04, 도커 사용. 샘플 데이터는 500MB 정도이다. 풀데이터는 현재 공개 되어있지 않다. 3월말 기준으로, 깃허브 이슈상에서는 몇주 후에 오픈소스로 제공하겠다고 하였으나 5월초인 아직까지 풀데이터가 올라오진 않았다. Pretrained model도 제공되는데, 200MB 정도 용량. cd ~ git cl.. 2021. 5. 4.
Video Odometry? SLAM? SfM? 아무튼 살펴본다. Video Odometry? 아무튼 전혀 알 수 없는 분야 공부가 필요해졌다. 자꾸 나오는 SLAM과 SfM이 뭔지부터 공부를 해야할듯 싶다. 진짜 하나도 모르겠어서 닥치는대로 본다 일단. 간단한 박사님의 설명 SfM을 가지고 SLAM을 달성한다고 보는게 더 직관적. Structure from motion은 말 그대로 주변 물체의 구조나 센서에서 잡힌 주변 정보로 모션을 측정해서 형태를 복원하는 과정. SLAM은 simultaneos localization and mapping이어서, 현재 visual camera의 위치를 추정하는 문제이다. SLAM에서 종종 SfM을 활용하기도하고, 딥러닝에서는 아예 다른 방식으로 풀고있다. 이 자료를 ettrends.etri.re.kr/ettrends/106/0905.. 2021. 5. 1.
Action Recognition보다 디테일한 Video 인식분야 조사 서론 이미지 인식에서 가장 흔하고 일반적인 task라고 하면 image classification이다. 비디오로 넘어오면 video classification? action recognition이라고 부르는 분야가 있다. 주어진 클립의 class를 인식하는 분야이다. image에서는 segmentation, detection 등으로 확장시켰는데, 마찬가지로 비디오에서도 더 디테일한 인식 분야가 없을까? 이에 대한 서베이 내용이다. 몇가지 살펴본 키워드는 다음과 같다. 1. Action Localization (Action Detection이라고 부름) 알아보기 AVA-Action Dataset openaccess.thecvf.com/content_cvpr_2018/papers/Gu_AVA_A_Video_.. 2021. 4. 23.
Refine Myself by Teaching Myself :Feature Refinement via Self-Knowledge Distillation "Refine Myself by Teaching Myself : Feature Refinement via Self-Knowledge Distillation" soft label 관련 논문이 있어서 구경. arxiv.org/pdf/2103.08273v1.pdf 주제는 KD. large teacher model을 학습하는 부담을 줄이기 위해서 self로 KD를 하고 있다. 어떻게? 주로 두가지 방법이 있다고 한다. 1. auxiliary network를 둔다. 2. augmentation based. 문제는 augmentation 기반의 경우, 데이터 어그멘테이션 도중에 인풋 이미지에 손실이 생기는데 이로 인해서 segmentation같은 task에는 적용할 수 없다는 점이다. 그리고 object detec.. 2021. 3. 19.
NVAE: A Deep Hierarchical Variational Autoencoder 읽기 VAE가 뭔지도 다 까먹었겠다, 읽으면서 쓰는 글. arxiv.org/pdf/2007.03898v3.pdf github.com/NVlabs/NVAE ichi.pro/ko/vae-variational-auto-encoder-leul-sayonghan-saengseong-modelling-277371603749134 논문이랑 엄청나게 상관은 없겠지만 VAE를 까먹어서 떠올리는 글 제목 NVAE. 일단 generative model이다. CelebA dataset 비슷한게 보이는데, 보통 image generation하면 GAN이 많이 떠오르는데 VAE를 쓰긴 하나보다 싶다. VAE는 AutoEncoder 구조에서 중간에 Latent variable에 mu, variance가 들어가는걸로 알고 있다. 이렇게 .. 2021. 3. 10.
반응형