본문 바로가기
반응형

AIML 분야/다른 연구 분야6

[서베이 & ideation] Scene Text Recognition (OCR) + Visual Feature로 representation learning을 한다? 서론. 과거에는 OCR로 텍스트 인식하여 정형화된 문서를 판독했는데 이제는 scene text recognition을 한다. 요즘 다시 STR쪽을 보고있는데 최근에도 논문이 활발하게 나오는 것 같다. 그렇게 text detection과 text recognition 단계를 거쳐 이미지 내의 텍스트를 인식하는 것 까지는 좋다. 여기서 더 나아가, 인식한 글자를 어떻게 활용할 수 있을지에 대한 고민을 하고있다. Scene Understanding을 위해서 이미지랑 텍스트를 같이 사용하는거 없나? caption과 이미지를 함께 사용하여 multimodal로 representation learning 하는건 요즘 foundation model이라고 부르면서 널리 연구되는 분야다. CLIP이라든가 ALIGN, A.. 2022. 10. 6.
NVAE: A Deep Hierarchical Variational Autoencoder 읽기 VAE가 뭔지도 다 까먹었겠다, 읽으면서 쓰는 글. arxiv.org/pdf/2007.03898v3.pdf github.com/NVlabs/NVAE ichi.pro/ko/vae-variational-auto-encoder-leul-sayonghan-saengseong-modelling-277371603749134 논문이랑 엄청나게 상관은 없겠지만 VAE를 까먹어서 떠올리는 글 제목 NVAE. 일단 generative model이다. CelebA dataset 비슷한게 보이는데, 보통 image generation하면 GAN이 많이 떠오르는데 VAE를 쓰긴 하나보다 싶다. VAE는 AutoEncoder 구조에서 중간에 Latent variable에 mu, variance가 들어가는걸로 알고 있다. 이렇게 .. 2021. 3. 10.
Implicit Regularization in Tensor Factorization 읽으면서 쓰는 글. 중간에 드랍할 수 있음. 이해한 바를 토대로 작성했으며 직역/뇌내 해석이다. 최근 arxiv sanity에 top recent라서 가져왔다. 이름부터 심상치 않은 개념을 담고 있을 것 같은 느낌이 드는 논문이다. arxiv.org/pdf/2102.09972.pdf 신기하게도 코드까지 있다. github.com/noamrazin/imp_reg_in_tf 우선 이 논문은 implicit regularization(-> generalization)에 대한 논문이다. 참고로 아래부터 계속 언급할 텐서는 Domain X를 의미한다. tensor factorization이라는 방법을 사용하는 것 같은데, 어떻게 텐서를 분해하겠다는건지 아직은 모르겠으나, 어떤 텐서가 담고 있는 정보의 내재적인 요.. 2021. 3. 4.
[20201223] Journal Club - DL based multi-organ segmentation 들으면서 필기한 것. 요즘 딥러닝을 활용한 다양한 모델 기반의 접근방식이 있다고 한다. 음 그냥 많은 접근 방식으로 요즘에 하는구나 싶었다. 이 분야는 안해서 모르겠지만. AE stacked라서 앞에 것을 학습하고 프리징하는 게 필요해서 연산이 많이 든다고 한다. CNN FCN : 보통 3d volume을 많이 사용한다고 함. UNet - 패치 크기. skip connection 사용. VNet, cascade UNet 이런걸 사용. 최근 연구들. GAN - Generator : segmentation을 함. - Discriminator : 보정을 하는 역할! - 일반적인 GAN과는 다르기 때문에 로스도 다르다. SCAN (structured correcting adversarial network) UN.. 2020. 12. 23.
Filter Response Normalization Layer (FRN) 논문 대략 읽기 최근 CVPR 2020 oral paper 위주로 서베이를 진행중인데, 그중에서 ML architecture & formulation 분야에 해당하는 논문이다. google research에서 나온 논문. 논문 읽는 목표? - Batch Normalization 맨날 쓰기만 했지 잘 모른다. 관련 연구는 하나도 모르고. - 수식까지 잘 이해할 수 있을거라고 기대하진 않음. 최소한 여기 연구 동향이 어떤지 구경하자는 가벼운 마음으로 접했다. Abstract 우선, Batch Normalization은 mini-batch단위의 statistics을 이용하여 activation을 normalize하는 기법이다. 당연히 전체 데이터의 statistics 반영 못하니까 가급적 큰 배치가 필요하고, 그게 힘드니까 .. 2020. 12. 17.
Cosine Annealing 사용해보는 기록 서치해도 잘 없길래 걍 써봄. 사용 계기 1. 내 모델이랑 SlowFast를 비교해야한다. pre-training 없이 작은 데이터셋에서 비교하는중. 2. 근데 내 환경에서 slowfast 성능이 너무 구리다. ResNet이랑 비슷하거나 더 안나오기도 한다. ㄱ-? 3. learning scheduler가 달랐지! 혹시나해서 내 모델과 slowfast 모두 pleatau를 사용하도록 실험도 해봤지만, 그냥 둘다 underfitting 될 뿐이었다. 튜닝을 하라면 하겠지만 일단 slowfast 성능 영끌이 필요한 관계로, 바로 half cosine을 찾기 시작했다. 조사 SlowFast 논문 - half cosine scheduler를 사용했다고 언급. SGDR 논문을 인용하면서. - 이 스케줄러의 bas.. 2020. 12. 4.
반응형